今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的;
在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式network下很快能找到一个‘?category=new_hot...’字样的文件,查看该文件发现新闻内容的数据全部存储在data里面,且能发现数据类型为json;如下图:
![4fe27765de23d41ce69c34325645f8d9.png](https://i-blog.csdnimg.cn/blog_migrate/16134d753c5228d9280d64ada892b483.jpeg)
这样一来就简单了,只要找到这个文件的requests url即可通过python requests来爬取网页了;
查看请求的url,如下图:
![b0b610166e564a774911d777d8329569.png](https://i-blog.csdnimg.cn/blog_migrate/c0b895165b5b5c62bed4f1b5c79dd1ec.jpeg)
发现链接为:https://www.toutiao.com/api/pc/feed/?category=news_hot&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A1B5AC16548E0FA&cp=5C647E601F9AEE1&_signature=F09fYAAASzBjiSc9oUU9MxdPX3
其中有9个参数,对比如下表:
![31e94b086d00af28202ea46147ff1e1a.png](https://i-blog.csdnimg.cn/blog_migrate/d990b7b58e9eb91d6407bdd89e9ca131.jpeg)
其中max_behot_time在获取的json数据中获得,具体数据见如下截图:
![c04e93c0cb0728c766077ea89adf9413.png](https://i-blog.csdnimg.cn/blog_migrate/c7a092141b13e043984ea6334796793e.jpeg)
下面附上完整代码:
![0b137e1cbc4a2a6fc7afcc5deb3b122c.png](https://i-blog.csdnimg.cn/blog_migrate/ad0e0b32f10acc35f3b509b91ddc75ba.jpeg)
最后送上程序运行的截图及数据存储的表格截图:
![c9c1c8eb8d3bc6833ab33ba221089da2.png](https://i-blog.csdnimg.cn/blog_migrate/c02483752233adb19f49e366841cb89d.jpeg)
![68a4af2aefaa440efdf69c38369d8000.png](https://i-blog.csdnimg.cn/blog_migrate/7e289fac5e9b32196b82111fb1b8d275.jpeg)