python爬虫
泛泛之素
君子不器
展开
-
爬虫:拉勾自动投递简历+数据获取
相对于boss直聘,拉勾没有那个访问时间长就提示验证。from selenium import webdriverimport timefrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWaitfrom bs4 import Be原创 2020-10-21 09:31:39 · 860 阅读 · 1 评论 -
爬虫:boss直聘自动投递简历+数据获取
boss直聘web端的反爬做得还是不错的,需要通过下载js文件结合浏览器生成token,一时也没太搞明白,所以通过selenium获取数据,顺手把投投简历。即便是使用selenium也只能获取部分数据,因为获取数据的数量被限制,无论是搜索或是在公司(300条)都限制和获取数据的数目,因此这里有个方向是可以根据推荐进行获取数据 。还有就是访问长了还会提示要验证,而且那个验证也是比较复杂,人工看有时候都得看半天。from selenium import webdriverimport timefrom原创 2020-10-21 09:27:18 · 3050 阅读 · 2 评论 -
小项目-数据爬取篇:scrapy框架,手机网页,工作信息存入MongoDB,代理ip中间件
准备工作首先安装scrapy框架:pip install scrapy还要用到mongodb,mongodb安装百度一下,网上很多。pip install pymongo这回我们要分析移动端的网页,需要使用使用火狐浏览器上的一个插件更改user-agent来模仿手机访问网页。 首先下载安装火狐浏览器; 然后,进入附加组件: 在扩展里搜索user agent switcher,第一个安装,使原创 2017-12-30 11:45:04 · 2550 阅读 · 0 评论 -
小项目-数据爬取篇:scrapy-redis,手机网页,房天下租房信息,分布式,代理ip
scrapy-redis,手机网页,房天下租房信息,分布式,代理ip原创 2017-12-31 11:42:31 · 3493 阅读 · 0 评论 -
小项目-数据爬取篇:准备工作 代理ip爬取(分布式,多线程)
代理网站比较多,有免费的有收费的,我们爬取的数据并不多,用免费的就好,免费代理有个致命缺点就是少数可用,所以我们爬取下来以后最好还要验证一下,验证的逻辑就是访问正常网站,返回状态200的保留,否者删除就好。原创 2017-12-29 14:41:55 · 3848 阅读 · 0 评论 -
chromedriver 下载地址
url = 'http://npm.taobao.org/mirrors/chromedriver/'转载 2018-02-10 09:29:58 · 2163 阅读 · 0 评论 -
爬虫:爬取股票历史交易数据
爬虫策略制定1、 从东方财富网中获取(http://quote.eastmoney.com/stocklist.html)股票代码 2、 从网易财经中可以直接下载csv格式文件,地址类似于http://quotes.money.163.com/trade/lsjysj_600508.html#01b07 3、 两个网站都不需要cookie,很好爬,注意控制访问时间间隔就可以,爬信息不要太暴...原创 2018-09-08 14:44:14 · 41920 阅读 · 12 评论 -
爬虫:爬取某壳长租公寓数据
长租公寓算是国内正在规范化的一个产业,其中比较正规的比较大的有某如、某壳,想要对长租公寓行业做一些简单的数据分析,于是乎爬虫搞起来,柿子挑软的捏:从某壳下手。爬虫策略说实话,某壳的数据挺好爬的,没有比较变态的反爬措施(某如有:价格是图片,不过也好解决,下一篇写哈),只要不是频繁请求的话应该就没事儿(我都是sleep1秒以上的,反正就爬一次而已),本人不支持暴力爬取,动不动就多线程、多进程、代理...原创 2019-01-24 19:40:04 · 45202 阅读 · 0 评论 -
爬虫:爬取某如长租公寓数据
某如的数据爬取策略其实跟某壳的差不多,就不多说了,可以看看那篇:https://blog.csdn.net/tonydz0523/article/details/86631664爬虫策略某如的数据爬取策略其实跟某壳的差不多,就不多说了,可以看看那篇:https://blog.csdn.net/tonydz0523/article/details/86631664某如的价格是图片格式,不能正常...原创 2019-01-24 20:35:48 · 4145 阅读 · 0 评论