Python爬虫入门教程【18】： 36氪(36kr)数据抓取 scrapy

最新推荐文章于 2024-04-23 14:08:57 发布

追梦IT男

最新推荐文章于 2024-04-23 14:08:57 发布

阅读量874

点赞数

文章标签： Python 爬虫数据挖掘编程语言

本文链接：https://blog.csdn.net/wcg541/article/details/97396195

版权

1. 36氪(36kr)数据----写在前面

今天抓取一个新闻媒体，36kr的文章内容，也是为后面的数据分析做相应的准备

36kr 让一部分人先看到未来，而你今天要做的事情确实要抓取它的过去。

网址 https://36kr.com/

2. 36氪(36kr)数据----数据分析

36kr的页面是一个瀑布流的效果，当你不断的下拉页面的时候，数据从后台追加过来，基于此，基本可以判断它是ajax异步的数据，只需要打开开发者工具，就能快速的定位到想要的数据，我们尝试一下！

捕获链接如下

https://36kr.com/api/search-column/mainsite?per_page=20&page=1&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=2&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=3&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=4&_=1543840108547

在多次尝试之后，发现per_page最大可以扩展到300，但是当大于100的数据，返回的数据并不是很

最低0.47元/天解锁文章

追梦IT男

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Python爬虫入门教程【18】： 36氪(36kr)数据抓取 scrapy

1. 36氪(36kr)数据----写在前面今天抓取一个新闻媒体，36kr的文章内容，也是为后面的数据分析做相应的准备36kr 让一部分人先看到未来，而你今天要做的事情确实要抓取它的过去。网址 https://36kr.com/2. 36氪(36kr)数据----数据分析36kr的页面是一个瀑布流的效果，当你不断的下拉页面的时候，数据从后台追加过来，基于此，基本可以判断它是ajax异步...
复制链接

扫一扫