最细致的python爬取异步加载json数据教学

一、python爬取html的内容(但是有些用了异步加载的就不可以使用这种方法)

二、python爬取异步加载的数据

1.判断是不是异步加载

2.找到异步加载的链接并且分析规律

  • 参数
  • 规律

3.获取放回的json数据并且放回存储

  • 转换
  • 解析

json数据

在json的解析器下,下面的解析器是edge浏览器的JSON-handle插件:

获取这个的地址就是我们要爬取数据的地址(可以多看几个异步加载的数据的地址,我们可以从多个地址中找到规律从而更加方便的爬取数据)

#获取数据
head = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.52"
}
# 模拟浏览器,向豆瓣发起消息
# 用户代理:实际上是告诉浏览器,我们是一个什么样子的机器,需要返回一个什么样子的数据格式

#这个地方的url要用异步加载出来数据的网站
req = urllib.request.Request(url, headers=head)     # 封装一个request对象,请求地址和伪装用的head不如你就是直接告诉浏览器你是一个爬虫
urllib.request.urlopen(req).read().decode("utf-8")  # 调用request对象读取浏览器放回来的数据

data=re.findall(正则表达式,需要查找的字符串(也就是把爬取下来的数据变成字符串通过str函数))
jsonload=json.loads(data[0])    #一个一个的把需要的数据转换为json数据,因为可能你爬取的数据里面有很多的重复的键使用要一次次的用for循环爬取
for item in jsonload:
    print(item['键名'])  #item['键名']可以获取到对应键的值 

三、防止ip被冻结

1.在每次重复爬取之间设置一个随机时间间隔

# 比如:
time.sleep(random.randint(0,3))  # 暂停0~3秒的整数秒,时间区间:[0,3]
# 或:
time.sleep(random.random())  # 暂停0~1秒,时间区间:[0,1)

2.伪造User-Agen

headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
resp = urllib.request.Request(url,headers = headers)

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

用草书谱写兰亭序

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值