Python爬虫自动获取CSDN博客收藏文章

本文讲述了作者如何使用Python爬虫获取CSDN个人收藏的文章,通过研究异步加载的链接,发现并解析参数实现翻页,从而获取全部收藏。作者还提到了在过程中遇到的Unicode编码问题及解决方法,并分享了自动登录CSDN以实现完全自动化爬取的代码参考链接。
摘要由CSDN通过智能技术生成


CSDN的Python创意编程活动开始第一天就看到了,但是认为自己是菜鸟,就向当“吃瓜群众”,后来看到有好多人的代码是关于爬虫的,当初我就是由于对爬虫 感兴趣才自学的Python。现在也打算参加一下这个活动。

由于经常使用CSDN,所以收藏了好多优秀的文章,但是对于收藏夹没有整理好,要回去找之前收藏的文章不是很方便,经过研究,就用自学的简单Python爬虫帮我吧。

去到首页一看,收藏的文章是算是异步加载的吧。。但是每次都要点击“显示更多"才能看到后面的内容。


幸运的是我也知道一点异步加载的知识,就按F12进行研究:浏览后一些内容以后


双击打开Name下的链接:



什么鬼,这是什么东西,我看不懂呀!其实这是unicode编码,要换成中文也很简单:在命令行就可以转换


当然,还有一个更好的方法,一个好用的网页: http://tool.chinaz.com/tools/unicode.aspx

可以实现在线转码的功能。把那个网页的第一条信息复制进来,点击unicode转中文,就可以看到中文了。


现在来研究一下那个链接,

http://my.csdn.net/my/favorite/get_favorite_list?pageno=2&pagesize=10&username=hurmishine

经过测试后发现,pageno这个参数控制显示页面起始编号,pagesize就是每页显示的数据条数。

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值