一、python爬取html的内容(但是有些用了异步加载的就不可以使用这种方法)
二、python爬取异步加载的数据
1.判断是不是异步加载
2.找到异步加载的链接并且分析规律
- 参数
- 规律
3.获取放回的json数据并且放回存储
- 转换
- 解析
json数据
在json的解析器下,下面的解析器是edge浏览器的JSON-handle插件:
获取这个的地址就是我们要爬取数据的地址(可以多看几个异步加载的数据的地址,我们可以从多个地址中找到规律从而更加方便的爬取数据)
#获取数据
head = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.52"
}
# 模拟浏览器,向豆瓣发起消息
# 用户代理:实际上是告诉浏览器,我们是一个什么样子的机器,需要返回一个什么样子的数据格式
#这个地方的url要用异步加载出来数据的网站
req = urllib.request.Request(url, headers=head) # 封装一个request对象,请求地址和伪装用的head不如你就是直接告诉浏览器你是一个爬虫
urllib.request.urlopen(req).read().decode("utf-8") # 调用request对象读取浏览器放回来的数据
data=re.findall(正则表达式,需要查找的字符串(也就是把爬取下来的数据变成字符串通过str函数))
jsonload=json.loads(data[0]) #一个一个的把需要的数据转换为json数据,因为可能你爬取的数据里面有很多的重复的键使用要一次次的用for循环爬取
for item in jsonload:
print(item['键名']) #item['键名']可以获取到对应键的值
三、防止ip被冻结
1.在每次重复爬取之间设置一个随机时间间隔
# 比如:
time.sleep(random.randint(0,3)) # 暂停0~3秒的整数秒,时间区间:[0,3]
# 或:
time.sleep(random.random()) # 暂停0~1秒,时间区间:[0,1)
2.伪造User-Agen
headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
resp = urllib.request.Request(url,headers = headers)