爬虫
文章平均质量分 54
(DᴗD)B
不会机械的程序员不是一个好的R6玩家。
展开
-
windows+python+selenium+chrome headless的启动方法
启动headless找了老长时间启动headless的方法,网上很多教程都没有看懂,最后发现竟然出奇的简单,表示要记下来。首先要安装谷歌浏览器,并更新到最新版本,然后安装ChromeDriver,就可以开始了from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionschrome_...原创 2018-11-24 11:59:19 · 893 阅读 · 0 评论 -
利用代理池和多线程爬取房天下上万条数据
有了代理池之后就可以爬很多网站了,很多网站的反爬措施都是从ip方面下手,通过代理池可以近乎拥有无穷的ip,再也不怕封ip啦下面我找上了房天下这个网站练一下手,通过测试,这个网站的反爬措施是一旦你访问过于频繁,他就会给你一个验证码,通过了验证码才能继续浏览。由于本人水平有限,可以说破解不了任何的验证码,所以希望通过更换ip来达到目的。首先,先来了解一下这个网站,我准备爬取二手房的数据这个是筛选...原创 2018-12-26 23:47:17 · 1163 阅读 · 2 评论 -
Python中xpath选择器的学习
xpath选择器是一个很方便,又很容易上手的一个选择器,用了一段时间,总结一下经常用到的东西。还有一些我没有用到的,这里就不说啦。目录:自己画的一个思维导图(自己记忆力不好,这样记得清楚)各种规则的案例各种方法的案例1.思维导图2.规则的使用 首先展示一段html的源码,通过源码进行学习。...原创 2018-12-11 16:34:16 · 556 阅读 · 0 评论 -
建立自己的小型代理池
建立自己的小型代理池拥有一个代理池会很大程度上的帮助我们进行工作,经过一番研究,自己写了一个代理池的小程序,删去了很多的功能,留下了最主要得。下边为自己的逻辑。因为储存和获取模块相对简单,所以合成为一个模块。粘贴出整个模块代码。获取的代理的网站有很多,这里只写了一个,对于我自己来说是够用了。import requestsfrom lxml import etreeimport t...原创 2018-12-25 23:16:55 · 880 阅读 · 0 评论