前言
今天跟大家分享一篇利用Re+BeautifulSoup分析Ajax网页抓取今日头条美图的帖子。
在此之前,我是浏览、学习过相关的帖子,但现在今日头条的网页已经更新,所以有些地方与之前的不一样了。
那么现在我们开始:
分析网页
我们在今日头条搜索“世界杯美女”,在界面空白处右击鼠标选择审查元素,选择NETwork,勾选preserve log,再点击XHR;当我们下拉网页刷新更多信息时,可以发现只有ofset改变了参数且以20的倍数,所以我们只需改变ofset的值就能获取更多的内容
点击每条ofset查看详情
而其中data中含有我们所需的信息
接下来我们就要获取这个详情页的url:
def parse_page_index(html):
try:
data = json.loads(html) //json无法直接读取所以将json转换成dict
if data and 'data' in data.keys():
for item in data.get('data'):
yield item.get('article_url')
下面我们可以开始抓取图片
抓取图片
接下来我们就开始抓取图片了,打