最细致的python爬取异步加载json数据教学

最新推荐文章于 2024-03-24 07:30:00 发布

用草书谱写兰亭序

最新推荐文章于 2024-03-24 07:30:00 发布

阅读量748

点赞数 10

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_62325622/article/details/134916309

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、python爬取html的内容（但是有些用了异步加载的就不可以使用这种方法）

二、python爬取异步加载的数据

1.判断是不是异步加载

2.找到异步加载的链接并且分析规律

参数
规律

3.获取放回的json数据并且放回存储

转换
解析

json数据

在json的解析器下，下面的解析器是edge浏览器的JSON-handle插件：

获取这个的地址就是我们要爬取数据的地址（可以多看几个异步加载的数据的地址，我们可以从多个地址中找到规律从而更加方便的爬取数据）

#获取数据
head = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.52"
}
# 模拟浏览器，向豆瓣发起消息
# 用户代理：实际上是告诉浏览器，我们是一个什么样子的机器，需要返回一个什么样子的数据格式

#这个地方的url要用异步加载出来数据的网站
req = urllib.request.Request(url, headers=head)     # 封装一个request对象，请求地址和伪装用的head不如你就是直接告诉浏览器你是一个爬虫
urllib.request.urlopen(req).read().decode("utf-8")  # 调用request对象读取浏览器放回来的数据

data=re.findall(正则表达式,需要查找的字符串（也就是把爬取下来的数据变成字符串通过str函数）)
jsonload=json.loads(data[0])    #一个一个的把需要的数据转换为json数据，因为可能你爬取的数据里面有很多的重复的键使用要一次次的用for循环爬取
for item in jsonload:
    print(item['键名'])  #item['键名']可以获取到对应键的值

三、防止ip被冻结

1.在每次重复爬取之间设置一个随机时间间隔

# 比如：
time.sleep(random.randint(0,3))  # 暂停0~3秒的整数秒，时间区间：[0,3]
# 或：
time.sleep(random.random())  # 暂停0~1秒，时间区间：[0,1)

2.伪造User-Agen

headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
resp = urllib.request.Request(url,headers = headers)

用草书谱写兰亭序

关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
1
评论
最细致的python爬取异步加载json数据教学

json数据在json的解析器下，下面的解析器是edge浏览器的JSON-handle插件：获取这个的地址就是我们要爬取数据的地址（可以多看几个异步加载的数据的地址，我们可以从多个地址中找到规律从而更加方便的爬取数据）
复制链接

扫一扫