利用Re+BeautifulSoup抓取Ajax网页今日头条中的美图

最新推荐文章于 2022-11-14 11:36:57 发布

小木梓儿

最新推荐文章于 2022-11-14 11:36:57 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/qq952715567/article/details/80858292

版权

前言

今天跟大家分享一篇利用Re+BeautifulSoup分析Ajax网页抓取今日头条美图的帖子。

在此之前，我是浏览、学习过相关的帖子，但现在今日头条的网页已经更新，所以有些地方与之前的不一样了。

那么现在我们开始：

分析网页

我们在今日头条搜索“世界杯美女”，在界面空白处右击鼠标选择审查元素，选择NETwork，勾选preserve log，再点击XHR；当我们下拉网页刷新更多信息时，可以发现只有ofset改变了参数且以20的倍数，所以我们只需改变ofset的值就能获取更多的内容

点击每条ofset查看详情

而其中data中含有我们所需的信息

接下来我们就要获取这个详情页的url：

def parse_page_index(html):
   try:
    data = json.loads(html) //json无法直接读取所以将json转换成dict
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')

下面我们可以开始抓取图片

抓取图片

接下来我们就开始抓取图片了，打

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小木梓儿

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
利用Re+BeautifulSoup抓取Ajax网页今日头条中的美图

今天跟大家分享一篇利用Re+BeautifulSoup分析Ajax网页抓取今日头条美图的帖子。在此之前，我是浏览、学习过相关的帖子，但现在今日头条的网页已经更新，所以有些地方与之前的不一样了。那么现在我们开始：（1）分析网页...
复制链接

扫一扫