- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 网络爬虫-pyqt5绕过反爬服务
当遇到使用selenium被网站识别为robot的时候,首先考虑的是换chromedriver,geckodriver,iedriver等,如果都还行不通,那么可以尝试修改chromedriver源码: stackoverflow传送门如果都行不通那么请尝试使用pyqt5pyqt5不仅可以做界面,他还可以调用强大的QtWebKit模块,QtWebKit是一个基于开源项目 ,WebK...
2018-08-29 16:03:38 13469 1
原创 网络爬虫-liunx环境下部署selenium+chromedriver
由于一些万恶的网站需要加载js才能抓取数据,我们只能使用selenium去抓取,我们知道selenium如何在windows上跑,只需要将正确对应版本的chromedriver放在Python路径下或者配置PATH环境变量即可。但是在linux环境下配置selenium+chrome需要配置的环境就很麻烦了,网上的教程也不太全面,我将我花了一天时间查阅的各种资料以及各种报错整理下来,供大家参考...
2018-08-24 11:36:30 15046 8
原创 网络爬虫-distil networks反爬虫服务
抓过大量数据的童鞋应该遇见过万恶的distil networks。 划重点,该公司的反爬服务是真的“牛逼”! 验证码是这样的 –> 一个是旋转图片,一个是播报语音,想想都难受,误伤率以及体验感都会很差,但是既然买了这个服务的公司,肯定也是数据十分珍贵吧,否则也不会冒着丢失客户的风险去搞这么个反爬虫服务。...
2018-08-22 18:24:42 31146 1
原创 网络爬虫-抓取酷航机票信息
今天抓取的是一家廉价航空公司的机票信息,该网站采用了收费的反爬虫服务,有兴趣的童鞋可以了解一下: distil networks当我抓该网站的post接口时,发现几个比较棘手的问题: 一. 不带cookie访问该网站的任意页面会被识别为机器人 二. cookie具有时效性,访问次数过多会被ban,一段时间后可继续使用 三. 无法使用selenium抓取数据,会被识别成机器人 四....
2018-08-14 21:44:21 14155 3
原创 网络爬虫-爬取飞常准航班信息
今天爬取的是一个航空公司网站的航班信息–飞常准 我们需要遍历抓取每一个航班里的所有信息 这里需要注意 有些列出来的航班可能不存在信息 需要进行一次判断 另外 访问过快会导致被该网站封号,解封会出现验证码,可以自己搭建免费ip代理池或使用收费代理 代码如下:import requestsimport jsonimport pytesseractimport rei...
2018-08-09 22:04:09 22077 9
原创 网络爬虫-爬取十万张表情包
最近和同事和朋友斗图斗得厉害,心想哪里来的这么多表情包,于是乎想着去表情包网站爬一波图片下来,便有了今天这边文章。话不多说,上图上代码!将这3540页表情包全部抓取下来,存到我的本地磁盘。spider.py# -*- coding: utf-8 -*-import scrapyfrom biaoqing.items import BiaoqingItemclass ...
2018-08-04 23:48:12 13711 3
Python爬虫开发与项目实战
2018-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人