python——爬虫
文章平均质量分 64
mmc2015
北大信科学院,关注深度强化学习。http://net.pku.edu.cn/~maohangyu/
展开
-
比较好的爬虫源码
第一个:https://zhuanlan.zhihu.com/p/23928595https://github.com/qiyeboy/IPProxyPool原创 2016-11-28 20:53:31 · 5653 阅读 · 0 评论 -
python爬虫,selenium使用,Firefox-chrome-IE问题解决方法,selenium的基本操作
关于什么是selenium和为什么使用selenium,自己搜资料。下面是比较好的系统介绍:https://selenium-python.readthedocs.io/installation.htmlhttps://seleniumhq.github.io/selenium/docs/api/py/api.html#selenium转载 2016-11-07 10:48:35 · 2980 阅读 · 0 评论 -
新浪微博爬虫:模拟登陆+爬取原始页面
最近搞科研,总要有数据,奈何新浪API限制太多。。。。。网上的新浪爬虫教程太杂乱,就不能简单点让大家都看懂吗????主要参考:http://blog.csdn.net/bcj296050240/article/details/46685947http://www.jianshu.com/p/36a39ea71bfd用爬虫爬取新浪数原创 2016-10-27 18:58:27 · 2604 阅读 · 0 评论 -
Selenium2(WebDriver)总结:启动浏览器、设置profile、加载插件
http://www.cnblogs.com/puresoul/p/4251536.html本文主要记录下在使用selenium2/webdriver时启动各种浏览器的方法、以及如何加载插件、定制浏览器信息(设置profile)等环境搭建可参考我的另一篇文章:http://www.cnblogs.com/puresoul/p/3483055.html转载 2016-11-08 10:56:11 · 3595 阅读 · 0 评论 -
Selenium总结:模拟浏览器动态加载页面
相信爬取大公司的数据时,常常会遇到页面信息动态加载的问题,如果仅仅使用content = urllib2.urlopen(URL).read(),估计信息是获取不全的,这时候就需要模拟浏览器加载页面的过程,selenium提供了方便的方法,我也是菜鸟,试了很多种方式,下面提供觉得最靠谱的(已经证明对于爬取新浪微博的topic、twitter under topic完全没问题)。原创 2016-11-27 20:13:53 · 5247 阅读 · 2 评论 -
python的【爬虫】:使用urllib爬取wiki文章,使用beautifulSoup解析html
之所以写这个,是因为搜不到关于wiki爬取方面的教程。先学习:正则表达式,http://python.jobbole.com/81346/BeautifulSoup(html文档解析器),http://python.jobbole.com/81349/爬取糗事百科实例,http://python.jobbole.com/81351/现原创 2016-03-18 14:52:26 · 7985 阅读 · 1 评论