Python3爬虫技术专栏
本专栏从比较简单的爬虫开始,逐渐会向大型或者更复杂的爬虫前进。感谢大家捧场,请多指教~
7voyage
这个作者很懒,什么都没留下…
展开
-
爬虫用户登陆
案例网站:https://www.yaozh.com/自行先注册一个账号登陆,从后台拿到cookie信息(需要先解析成字典)。用requests带着cookie请求页面:import requestsfrom fake_useragent import UserAgentua =UserAgent(verify_ssl=False)url = 'https://www.yaozh.co...原创 2019-03-04 21:38:18 · 581 阅读 · 0 评论 -
获取猫眼电影所有城市信息
获取猫眼电影所有城市信息做一个关于猫眼电影的爬虫要查看全国的分布,就必须第一步先拿到所有的影院所在城市信息。这个下拉列表不算太好解决,如果只是用requests的话,这里用selenium。代码解释主要用到的ActionChains,里面储存了一系列动作如:鼠标移动,鼠标点按,键盘操作,文本操作等。当ActionChains对象调用perform()时,这些操作会被先储存在一个队列中,队列...原创 2019-01-15 11:04:19 · 2570 阅读 · 4 评论 -
Scrapy爬取前程无忧(51job)相关职位信息
Scrapy爬取前程无忧(51job)python职位信息开始是想做数据分析的,上网上找教程,看到相关博客我就跟着做,但是没数据就只能开始自己爬呗。顺便给51job的工作人员提提建议,我爬的时候Scrapy访问量开到128,relay仅有两秒,还以为会封ip。没想到只是改请求头就能万事大吉。。。这基本算是没有反扒机制吧。而且后面数据清洗的时候发现很多虚假的招聘广告,这个应该官方可以控制下吧。灵...原创 2018-12-13 21:57:03 · 2412 阅读 · 0 评论 -
淘宝美食爬虫python3.6+selenium
用自动化测试工具selenium获取淘宝美食信息,另外附带延时加载的其中一个解决方法。原创 2018-08-18 14:37:31 · 303 阅读 · 0 评论 -
爬取汽车之家北京二手车信息
爬取汽车之家北京二手车信息经测试,该网站反爬机制较低,仅需要伪造请求头设置爬取速率,但是100页之后需要登录,登录之后再爬要慎重,一不小心就会永久封号。爬取的数据以各种类型存放,下面展示保存到mysql数据库中:原创 2018-12-07 12:06:44 · 1102 阅读 · 0 评论