reptile
文章平均质量分 64
AuroraPetard
这个作者很懒,什么都没留下…
展开
-
urllib
import urllib.request就已经包括其他的那几个模块了,所以只需要import urllib.request就okimport urllib.requestresponse=urllib.request.urlopen("url")print(response.read().decode('utf8'))#read方法为字节需decode为utf8普通为get请求p原创 2018-01-30 23:08:37 · 140 阅读 · 0 评论 -
docker部署pyspider
感觉pyspider不如scrapy好用三台机器,首先从 git clone https://github.com/binux/pyspider然后修改Dockerfile ,其中有些下载很慢的,需手动下载添加进去FROM hub.c.163.com/library/python:2.7MAINTAINER binux <roy@binux.me># insta...原创 2018-12-18 19:52:25 · 1077 阅读 · 0 评论 -
linux 安装 selenium 以及 chromedriver 安装
pip install selenium注意chromedriver 一定要和自己的chrome 或者 chromium相对应,否则会报错然后解压,chmod +x chromedriver将其丢到 PATH任意路径即可原创 2018-12-18 20:16:28 · 919 阅读 · 0 评论 -
常见爬虫验证破解
from https://blog.csdn.net/qq_28119741/article/details/806041491.输入式验证码这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图 图1 图2解决思路:这种是最简单的一种,只要识别出里面的内容,然后填入到输入框中即可。这种识别技术叫OCR,这里我...原创 2018-12-18 20:21:08 · 390 阅读 · 0 评论 -
较简单的滑动验证破解
from https://blog.csdn.net/chenxiao17301/article/details/82911155 一、新旧版对比以前的滑动验证码可以得到原背景图和有缺口的背景图,两图比较,就可以计算出需要滑动的距离。新版的验证码,没有背景图片作参考,一点开就是带有缺口的图片,那么,我们怎么计算需要滑动的距离呢?二、解析过程 在检查页面源码时怀疑滑块...原创 2018-12-18 20:24:14 · 1992 阅读 · 0 评论 -
天眼查 selenium模拟登录爬虫
phantomjs 已经不支持了,所以改用chrome或firefox headless,但是chrome headless 不稳定,容易出问题,采用firefox headless , import time from selenium import webdriver options = webdriver.FirefoxOptions()options.add...原创 2018-12-24 20:36:02 · 1391 阅读 · 1 评论