python爬虫爬取今日头条_python 爬虫抓取今日头条街拍图片

weixin_39738380

于 2020-11-25 02:30:27 发布

阅读量77

点赞数

文章标签： python爬虫爬取今日头条

1. 打开google浏览器，输入www.toutiao.com, 搜索街拍。

2.打开开发者选项，network监看加载的xhr, 数据是ajax异步加载的，可以看到preview里面的data数据

3.下拉刷新查看加载的offset，每次加载20条数据，data是json数据，里面的article_url,是图集详情页的url。

4.首先抓取索引页的内容

data数据来自于索引页的请求都里面的query str

5. 接下来是解析索引页的数据，提取出所需要的详情页的url，索引页的data是json数据，里面的article_url,是图集详情页的url。

6. 有了详情页的url，接下来就是获取详情页的数据和代码了

7. 接着就是解析详情页面，并提取title, 和图片url, 详情页代码数据在Doc中查看, 注意提取的是组图，非组图被过滤了.url_list 是指三个地址都是图片的地址，我们只要有一个原始的url就可以了。

8. 把解析提取的数据存储到mongodb中，以字典的方式.

先写个mongo的配置文件config.pyMONGO_URL = 'localhost'

MONGO_DB = 'toutiao'

MONGO_TABLE = 'toutiao'

GROUP_START = 0

GROUP_END = 20

KEYWORD = '街拍'

然后连接本地mongo，存储数据

9. 下载图片

10. 爬虫主函数

11. 开启多进程

12. 需要的库函数

weixin_39738380

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫爬取今日头条_python 爬虫抓取今日头条街拍图片

1. 打开google浏览器，输入www.toutiao.com, 搜索街拍。2.打开开发者选项，network监看加载的xhr, 数据是ajax异步加载的，可以看到preview里面的data数据3.下拉刷新查看加载的offset，每次加载20条数据，data是json数据，里面的article_url,是图集详情页的url。4.首先抓取索引页的内容data数据来自于索引页的请求都里面的quer...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。