正则(re.findall) 抓取script中的数据
以某网站为例(政府性质),路由地址就不发了
1、网站数据如下
数据是动态加载,无法使用xpath标签解析
2、re.findall()抓取
import re
import json
import requests
# 获取详情页
def spider_test(pageid):
url = "http://xxxxxxxxxxxxx/view?id=%s" % pageid
headers = {
'Cookie': 'HttpOnly; JSESSIONID=F
原创
2021-10-19 16:09:49 ·
1095 阅读 ·
0 评论