爬虫
Donald_Zhuang
这个作者很懒,什么都没留下…
展开
-
反爬虫绕过初级——添加http header和gzip解压处理
爬虫练习,通过添加http header来模拟浏览器访问,绕过网站反爬策略,文中也介绍了gzip解压的实现。原创 2017-07-30 21:02:30 · 11531 阅读 · 3 评论 -
爬虫自动抓取腾讯视频评论 -- json的使用和数据解析
这周和大家分享下腾讯视频评论抓取爬虫,实际抓下来的数据里面除了评论还有其他不少有价值的信息,有部分用户数据可以使用的,不过具体就看大家自己怎么用了。 这个demo的具体源码在最后面,下文将对这个demo的实现过程进行说明。原创 2017-08-19 11:52:25 · 2798 阅读 · 0 评论 -
微信文章爬虫demo -- 综合实验和练习
这次分享的是我写的一个微信文章爬虫demo,初步具备了以下功能,我还会进一步迭代和优化,希望这个玩意做得好玩一些。也希望大家吐槽下这个实现,给些建议交流下,感谢。>1. 自动抓取代理IP和更新>2. Cookie自动保存重装载>3. 部分简单的容错处理>4. 通过搜狗引擎查找并抓取微信文章原创 2017-08-14 00:55:21 · 490 阅读 · 0 评论 -
模拟登陆CSDN -- Python爬虫练习之正则表达式和cookie
这周学习的主题是正则表达式和cookie,这部分也挺不错的,也并没有想象中容易,学习下来还是挺多收获的。这周练习的综合习题是模拟登陆CSDN,实现过程不难,最终实现代码在最后面。原创 2017-08-06 10:04:04 · 793 阅读 · 0 评论 -
TinyHttpSever
一直很好奇web的工作原理,加之这阵子也在学习Python爬虫,就有想法了解这部分的知识,所以买了一本图解HTTP。这本书简洁清晰也很形象地介绍了HTTP协议的工作流程,对零基础了解HTTP协议有着不错的引导作用。书也很薄,可以很快看完。不过纯粹通过看书学习一个协议难免会浮于表面,因此,我找了TinyHttpd的source code来了解http协议的实现和实际工作场景。原创 2017-07-25 06:57:45 · 654 阅读 · 0 评论