python爬虫动态解析js_Python爬虫实战入门五：获取JS动态内容—爬取今日头条

weixin_39845613

于 2020-11-25 03:36:53 发布

阅读量655

点赞数

文章标签： python爬虫动态解析js

F12打开网页调试工具：

0?wx_fmt=png

选择“网络”选项卡后，发现有很多响应，我们筛选一下，只看XHR响应。（XHR是Ajax中的概念，表示XMLHTTPrequest）然后我们发现少了很多链接，随便点开一个看看：我们选择city，预览中有一串json数据：

0?wx_fmt=png

我们再点开看看：

0?wx_fmt=png

原来全都是城市的列表，应该是加载地区新闻之用的。现在大概了解了怎么找JS请求的接口的吧？但是刚刚我们并没有发现想要的新闻，再找找看：有一个focus，我们点开看看：

0?wx_fmt=png

与首页的图片新闻呈现的数据是一样的，那么数据应该就在这里面了。

看看其他的链接：

0?wx_fmt=png

这应该是热搜关键词

0?wx_fmt=png

这个就是图片新闻下面的新闻了。

我们打开一个接口链接看看：http://www.toutiao.com/api/pc/focus/

0?wx_fmt=png

返回一串乱码，但从响应中查看的是正常的编码数据：

0?wx_fmt=png

有了对应的数据接口，我们就可以仿照之前的方法对数据接口进行请求和获取响应了2、请求和解析数据接口数据

先上完整代码：# coding：utf-8

import requests

import json

url = 'http://www.toutiao.com/api/pc/focus/'

wbdata = requests.get(url).text

data = json.loads(wbdata)

news = data['data']['pc_feed_focus']

for n in news:

title = n['title']

img_url = n['image_url']

url = n['media_url']

print(url,title,img_url)

返回出来的结果如下：

0?wx_fmt=png

照例，稍微讲解一下代码：

代码分为四部分，

第一部分：引入相关的库# coding：utf-8

import requests

import json

第二部分：对数据接口进行http请求url = '

wbdata = requests.get(url).text

第三部分：对HTTP响应的数据JSON化，并索引到新闻数据的位置data = json.loads(wbdata)

news = data['data']['pc_feed_focus']

第四部分：对索引出来的JSON数据进行遍历和提取for n in news:

title = n['title']

img_url = n['image_url']

url = n['media_url']

print(url,title,img_url)

如此，就完成了从JS网页中爬取数据。如有帮助，欢迎微信打赏 0?wx_fmt=png 微信公众号

州的先生

weixin_39845613

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫动态解析js_Python爬虫实战入门五：获取JS动态内容—爬取今日头条

F12打开网页调试工具：选择“网络”选项卡后，发现有很多响应，我们筛选一下，只看XHR响应。（XHR是Ajax中的概念，表示XMLHTTPrequest）然后我们发现少了很多链接，随便点开一个看看：我们选择city，预览中有一串json数据：我们再点开看看：原来全都是城市的列表，应该是加载地区新闻之用的。现在大概了解了怎么找JS请求的接口的吧？但是刚刚我们并没有发现想要的新闻，再找找看：有一个fo...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。