自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Tesseract-OCR+jTessBoxEditor训练字库或图形验证码

安装安装tesserocr.exe文件,配置环境变量pip install tesserocr安装java jdk 配置环境变量jTessBoxEditor安装具体安装参考网络资料划重点!!!还要单独新建一个环境变量,最好两个都新建,用户的环境变量和系统环境变量名字:TESSDATA_PREFIX路径是:Tesseract-ORC下的tessData文件夹检查是否安装成功:...

2019-09-27 14:15:59 575

原创 关于真机/模拟器和云手机app自动化及爬虫的实现思路

分为真机/模拟器和云手机两种情况*真机/模拟器自动化部分*1.使用自动化框架驱动自动化实现自动化(appium,airtest),也可以实现群控2.使用uiautomator2实现手机自动化,3.使用uiautomator2实现脱pc手机自动化,目前只能单个操作4. 使用uiautomator实现自动化5.使用adb实现简单的手机自动化*真机/模拟器自动化爬虫部分*1.使用1中自动化框架驱动手机自...

2019-09-27 14:01:01 3167

原创 python_spider 08 Json模块与json格式

数据的存储格式 JSON 和Python 中的 json 模块。JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python 中自带了JSON模块,直接import json就可以使用了...

2019-08-06 11:19:22 219

原创 python-spider 07 Beautiful Soup(bs4 基础解析方法)

Beautiful Soup–bs4 也是一个厉害的网络解析库Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。pip instal...

2019-08-06 11:09:38 145

原创 python_spider 06 XPATH,基础解析方法

XML解析神奇-- XPath。需要先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的...

2019-08-06 10:53:28 142

原创 python_spider 05 RE,正则表达式实战

我们要爬取的网站链接是 https://www.qiushibaike.com/text/page/1/ 。糗事百科我们要爬取的是里面的糗事,在之前的文章中我们已经可以爬取整个 url 链接里的 html 内容,那么我们就可以根据爬取到的 html 代码,再通过 re 模块匹配我们想要的内容即可。我们通过调用开发者工具检查 HTML 元素发现我们想要的内容在 … 内,根据这个我们可...

2019-08-06 10:40:39 108

原创 python_spider 04 网页解析(re 正则表达式)

什么是正则表达式正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。Python 的 re 模块在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。有一点需要特别注意的是...

2019-08-05 18:04:35 302

翻译 python_spider 02-爬虫流程

爬虫的基本流程发起请求—获取响应—解析内容—保存数据向目标站点发起请求,就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应服务器能正常响应,会得到一个Response,页面内容类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件什么是Request,ResponseHTP...

2019-08-05 17:56:33 138

原创 python_spider 01-概念讲解

通用爬虫和聚焦爬虫(垂直爬虫)通用爬虫通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。简单地说就是爬虫不管三七二十一,把能爬的数据全部都采集下来,没有特殊目标数据之分。通用搜索引擎(Search Engine)工作原理1. 抓取网页首先选取一部分的种子URL,将这些URL放入待...

2019-08-05 17:26:07 263

原创 appium-desktop 安装顺序 ,2019.7更新

新人小白捣鼓了一天,来分享一下请按照以下顺序安装,否则有问题,不怪我哟,如果对你有用可以关注收藏一下哟node.js(自动配置path)java jdk(手动配置path,新版的jdk是没有jre的,可能是整合了,所以不用安装jre)android sdk(手动配置path,注意选择下载代理,原代理好像是谷歌,下载慢)appium-desktop(我这里有最新版的,官网下载太慢了,好几...

2019-07-29 09:54:42 387

原创 关于智能货柜的调试系统(Python串口编程)

主要是这两个程序,已经上传到我的GitHub中,https://github.com/Shawn-fung/guizi智能货柜涉及到的模块有,红外模块。光感模块,显示屏,顶灯,还有就是货柜门的开启和状态的检测功能类似于,快递柜,生鲜柜这次只是用tk写的初期测试系统,不是正式的运行系统...

2019-07-15 13:57:41 1219

原创 Redis中文乱码问题的解决(你不知道的秘密)

若尝试了redis-cli --raw还是不能显示正常中文的话回头设置encoding=‘gbk’,在进入redis-cli --raw,就可以正常显示中文了

2019-04-19 00:20:23 4231 2

原创 西刺ip代理采集和ip测试-国内免费高匿版本

采集程序熟悉xpath和bs4的用法coding:utf-8import timeimport requestsfrom bs4 import BeautifulSoupfrom fake_useragent import UserAgent #这是一个随机返回一个UA头的模块from lxml import etreeua = UserAgent()headers = {...

2019-04-09 16:22:14 2347

原创 爬虫(js加密)-关于有道翻译的js加密简单破解

import requestsimport hashlibimport timeimport random#以下的值是在js文件中查找到的,有道主要是通过sign和salt(言)进行js加密的#sign = n.md5(“fanyideskweb” + e + i + “@6f#X3=cCuncYssPsuRUE”)#r = “” + (new Date).getTime() 155...

2019-04-08 22:45:11 181

原创 史上最简单的多线程爬小说

import requestsimport threadingimport queuefrom lxml import etreeimport timeQ = queue.Queue()class A(threading.Thread): def __init__(self): threading.Thread.__init__(self) ...

2019-02-28 09:30:31 525

原创 python_spider 03 requsets 模块的使用

requsets 个人觉得系统自带的库不好用,以前学过自动自带的urblib 和request 库…想学隔壁转弯自学.学就从这个库开始学习一:reuqests 库的get 和post请求知识点:>:1 想要发送什么请求就调用什么请求的方法>:2response 的属性    response.text() # 获取文本    response.content() #以2...

2019-02-27 22:57:06 630

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除