CSDN的Python创意编程活动开始第一天就看到了,但是认为自己是菜鸟,就向当“吃瓜群众”,后来看到有好多人的代码是关于爬虫的,当初我就是由于对爬虫 感兴趣才自学的Python。现在也打算参加一下这个活动。
由于经常使用CSDN,所以收藏了好多优秀的文章,但是对于收藏夹没有整理好,要回去找之前收藏的文章不是很方便,经过研究,就用自学的简单Python爬虫帮我吧。
去到首页一看,收藏的文章是算是异步加载的吧。。但是每次都要点击“显示更多"才能看到后面的内容。
幸运的是我也知道一点异步加载的知识,就按F12进行研究:浏览后一些内容以后
双击打开Name下的链接:
什么鬼,这是什么东西,我看不懂呀!其实这是unicode编码,要换成中文也很简单:在命令行就可以转换
当然,还有一个更好的方法,一个好用的网页: http://tool.chinaz.com/tools/unicode.aspx
可以实现在线转码的功能。把那个网页的第一条信息复制进来,点击unicode转中文,就可以看到中文了。
现在来研究一下那个链接,
http://my.csdn.net/my/favorite/get_favorite_list?pageno=2&pagesize=10&username=hurmishine
经过测试后发现,pageno这个参数控制显示页面起始编号,pagesize就是每页显示的数据条数。