scrapy爬取今日头条

最新推荐文章于 2024-08-18 15:31:51 发布

weixin_33754065

最新推荐文章于 2024-08-18 15:31:51 发布

阅读量364

点赞数

文章标签： python 数据库

原文链接：http://www.cnblogs.com/recordtime/p/8034196.html

版权

今日头条加密http://www.cnblogs.com/xuchunlin/p/7097391.html 非常感谢！

参考网站：http://blog.csdn.net/u011475134/article/details/70198533

参考网站：http://www.jianshu.com/p/5a93673ce1c0 这位大神写的很详细，不过现在api这个接口有点变化，多了一个参数

经过测试，这个参数可以固定！

start_urls=[

'https://www.toutiao.com/api/pc/feed/?category=news_finance&utm_source=toutiao&widen=1&max_behot_time={0}&max_behot_time_tmp={0}&tadrequire=true&as={1}&cp={2}&_signature=7DQ2rwAAtiawWJlHXVZg8uw0Nr']

请求头

加密算法和js http://www.cnblogs.com/xuchunlin/p/7097391.html 感谢！

加密的js没找到，直接用大神写的解密方式

从redis获取数据重组

json数据

解析json数据

一开始使用的是，抽取"source_url"的数据，然后301重定向可以访问详细页，跑了几遍之后会有一些奇怪的url，最后发现这样的方式不行，然后重组url。

获取下一部分

下一部分，只使用10次

3.详细页解析

不是我们熟悉的html呈现，而是js的形式

解析：正则！！====>解析正文部分。

可以看到有'<>'的html里面的大于小于号

一开始是，把这些符号用正则替换

最后运行几次，有个别文章匹配方式跟这种有点不同，达不到通用，换方案！

这一段的正文，在浏览器上呈现，可以看到是一段html文字，所以想到转换，

etree呈现出来之后，我们可以提取出来，再次etree

解析

这种方式，目前运行正常

在这里只是提供一种方法，也许不是最好的，只要能达到目的就行！

也希望大家能有新的方法！

转载于:https://www.cnblogs.com/recordtime/p/8034196.html

weixin_33754065

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。