爬虫
文章平均质量分 58
Nick_Spider
GitHub -> https://github.com/nickliqian
展开
-
五种使用python储存数据的方式
在python编程开发中,总是不可避免的遇到数据储存的问题,下面就介绍python与几种数据储存方式交互的方法。json文件json是一种轻量级的数据交换格式。采用完全独立于编程语言的文本格式来存储和表示数据。层次结构简洁而清晰,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。最主要的是,通过json这个包可以很方便的解决无论是py2还是p原创 2017-10-13 23:38:10 · 111250 阅读 · 0 评论 -
使用PIL和几种分类算法对标准数字图片进行识别
simple_number_recognition使用PIL和几种分类算法对标准数字图片进行识别。背景在采集某个免费代理网站的时候,遇到比较复杂的html代码。 考虑到我需要采集的是 数字+点号+冒号,并且都是同一种标准字体。 就试着使用ocr来识别。如何实现使用selenium+phantomjs采集web页面,并且截图储存到本地。使用Photoshop分析页...原创 2018-09-07 11:18:31 · 1695 阅读 · 0 评论 -
使用Katalon Recorder快速完成selenium自动化脚本
参考:https://blog.csdn.net/yoyocat915/article/details/80841151Katalon Recorder是一个web操作自动化录制工具。可以通过录制实时的网页操作,自动化进行相关的测试,并可以导出多种语言(Java、Python、C#、Ruby)的selenium webDriver的代码。1 下载和安装Katalon Recorder有...原创 2018-11-26 23:21:11 · 3226 阅读 · 1 评论 -
反爬虫的一些心得
转载请注明来源本帖持续更新1. 为什么会弹出验证码访问频率太高,网站会针对性的弹出验证码限制你的访问,一般有这几种情况:记录了你的IP访问频率,针对IP弹出验证码记录了你的cookies访问频率,针对此账号弹出验证码双管齐下,同时限制你的IP和账号的访问2. 比较好的验证码设计2.1 第一种这种好像是谷歌的验证码生成库生成的中文验证码。抛开大量样本的深度学习不说,这种...原创 2018-12-12 23:44:42 · 2419 阅读 · 0 评论 -
pyppeteer报错解决和相关问题解决
pyppeteer.errors.NetworkError: Protocol Error (Runtime.callFunctionOn): Session closed. Most likely the page has been closed.使用pyppeteer采集京东的时候,总数到7~8页的时候就报错.谷歌发现了这样的解决方案:https://github.com/miyako...原创 2019-01-31 18:01:01 · 28433 阅读 · 4 评论 -
(转)Xpath string()提取多个子节点中的文本
转载自:https://www.cnblogs.com/thunderLL/p/8038927.html<div> <ul class="show"> <li>275万购昌平邻铁三居 总价20万买一居</li> <li>00万内购五环三居 140万安家东三环</li>原创 2019-02-01 14:52:28 · 5505 阅读 · 0 评论 -
使用node运行puppeteer项目
1 初始化node项目新建一个目录,在目录下运行:sudo npm init2 安装puppeteer安装puppeteer,由于下载chrome内核比较慢,这里使用--ignore-scripts参数忽略下载chrome内核sudo npm i puppeteer --ignore-scripts -S 3 下载chrome内核内核下载地址如下:const downloadU...原创 2019-01-28 11:27:07 · 4991 阅读 · 0 评论 -
使用pyppeteer调用puppeteer访问页面
pyppeteer文档:https://miyakogi.github.io/pyppeteer/index.html参考:https://www.jianshu.com/p/fd9eb385a70e1 安装pyppeteerpip install pyppeteer2 配置puppeteer和chrome要使用python调用puppeteer前当然先要把chrome内核和dri...原创 2019-01-28 13:32:00 · 6554 阅读 · 0 评论 -
python使用pupeteer的一些姿势
# 运行浏览器browser = await pyppeteer.launch( executablePath="/home/nick/.local/share/puppeteer/local-chromium/609904/chrome-linux/chrome", headless=False, args=['--proxy-server=11...原创 2019-01-29 17:39:59 · 5018 阅读 · 0 评论 -
使用Python Requests发送multipart/form-data POST请求
第一种:附带多个参数files={'app_key':(None,'123456'), 'version':(None,'2256'), 'platform':(None,'ios'), 'image':('test.jpg',open('./test.jpg','rb')) }response = requests.request("POST", url, fil...原创 2018-08-13 10:39:04 · 6704 阅读 · 0 评论 -
Python Requests中异常总结
1. 连接超时服务器在指定时间内没有应答,抛出 requests.exceptions.ConnectTimeoutrequests.get('http://github.com', timeout=0.001)# 抛出错误requests.exceptions.ConnectTimeout: HTTPConnectionPool(host='github.com', port=80...原创 2018-08-07 15:27:10 · 41025 阅读 · 2 评论 -
iPhone/IOS使用Fiddler抓包配置
1. 安装安装Fiddler软件2. 配置2.1 端口点击 Tools &gt; Options 按如下配置勾选 启用远程访问 等并且设置端口,这里设置8888 2.2 重启重启Fiddler 这里官网额外加了一步配置注册表,经过验证不配置也可正常使用如果配置可以按照以下方法: win+r进入运行命令界面,输入REGEDIT进入注册表 找到HKE...原创 2018-07-19 22:10:55 · 53060 阅读 · 4 评论 -
使用selenium操作PhantomJS的常用操作
采集淘宝商品数据的时候,主要用到了Selenium+PhantomJS。在这个过程中对淘宝的严厉反爬措施佩服至极,个人也得到了很多成长。虽然历经曲折,最终还是能正常运行自己的脚本采集数据。这里总结一下Selenium+PhantomJS使用中常用的操作。设置等待时间隐式等待,等同于time.sleep()driver.implicitly_wait(40)原创 2017-10-13 23:40:34 · 34707 阅读 · 0 评论 -
使用phantomjs访问网站,高度自定义headers
由于在遇到的一个网站需要cookie才能访问成功,所以研究了一下如何给phantomjs设置cookie。既然能设置cookie,那么其余的头信息应该也能设置,下面就给大家说明如何实现。下面是我们要附带给phantomjs浏览器的headers信息。headers = { 'accept': "text/html,application/xhtml+xml,applicat原创 2017-10-13 23:42:02 · 31851 阅读 · 0 评论 -
基于python的验证码生成与识别1—生成简单的验证码
最近爬虫的时候经常遇到验证码,想着干脆就花点时间去学习一下如何识别验证码,顺便在这里记录一下过程,方便以后翻阅。识别验证码的主要过程为:1. 图像预处理 二值化,去噪等2. 图像分割 把验证码分割单个字符3. 图像识别 输出图像对应的字符目前接触到图像识别方法是Tesseract,KNN分类算法,AI 与向量空间图像识别算法(http://www.jb5原创 2017-10-14 00:06:33 · 31646 阅读 · 0 评论 -
使用Python3和BeautifulSoup爬取笑话网站内容,并导入Excel
本文使用Python3和BeautifulSoup爬取网站内容,并导入Excel。 #抓取糗事百科笑话的脚本import urllib.requestfrom bs4 import BeautifulSoupimport xlwt #写入文件import xlrd #打开excel文件import time#返回文本式的htmldef getHTML(url):...原创 2017-06-16 15:52:39 · 30174 阅读 · 0 评论 -
chromedriver各版本映射表以及迭代记录
———-ChromeDriver v2.34 (2017-12-10)———- Supports Chrome v61-63 Resolved issue 2025: Incorrect navigation on Chrome v63+ [[‘Pri-0’]] Resolved issue 2034: Error looking for “Timeline.start” in Chrome原创 2017-12-28 09:34:17 · 748 阅读 · 0 评论 -
【爬虫必备】在win环境反编译安卓APP的.apk文件
0. 引言爬虫工作者经常需要对一些手机APP抓包以获得登陆和数据接口,但是很多情况下APP在发送HTTP请求的时候使用了加密后的token和signature作为参数,这使我们即使在获得了接口也很难找到破解参数从而不发对接口进行采集。 本文就初步介绍一下将安卓APP反编译为java class文件的工具和方法。1. 环境和工具OS: win 10工具:dex2jar 解包...原创 2018-06-10 12:23:38 · 4601 阅读 · 1 评论 -
基于Python轻度使用Chrome Headless(谷歌浏览器无头模式)
简单demo如下# coding: utf-8from selenium import webdriverchrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')client = we...原创 2018-06-27 10:15:13 · 8600 阅读 · 2 评论 -
使用node.js第三方库xpath进行html文档解析
引言最近需要使用node.js访问网页、解析html文档进而提取网页上面的数据。由于使用python写爬虫的时习惯使用xpath进行html文档解析,于是也许搜了一下xpath解析方式的node.js实现。发现了两个第三方库:yaronn/xpath.jsgoto100/xpath分别是xpath.js和xpath,xpath是fork的xpath.js项目进一步开发的,最后com...原创 2019-02-13 12:48:01 · 9232 阅读 · 0 评论