Mr.Shawn-CSDN博客

原创 Tesseract-OCR+jTessBoxEditor训练字库或图形验证码

安装安装tesserocr.exe文件，配置环境变量pip install tesserocr安装java jdk 配置环境变量jTessBoxEditor安装具体安装参考网络资料划重点!!!还要单独新建一个环境变量，最好两个都新建，用户的环境变量和系统环境变量名字:TESSDATA_PREFIX路径是:Tesseract-ORC下的tessData文件夹检查是否安装成功:...

2019-09-27 14:15:59 646

原创关于真机/模拟器和云手机app自动化及爬虫的实现思路

分为真机/模拟器和云手机两种情况*真机/模拟器自动化部分*1.使用自动化框架驱动自动化实现自动化（appium，airtest），也可以实现群控2.使用uiautomator2实现手机自动化，3.使用uiautomator2实现脱pc手机自动化，目前只能单个操作4. 使用uiautomator实现自动化5.使用adb实现简单的手机自动化*真机/模拟器自动化爬虫部分*1.使用1中自动化框架驱动手机自...

2019-09-27 14:01:01 3713

原创 python_spider 08 Json模块与json格式

数据的存储格式 JSON 和Python 中的 json 模块。JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python 中自带了JSON模块，直接import json就可以使用了...

2019-08-06 11:19:22 265

原创 python-spider 07 Beautiful Soup(bs4 基础解析方法)

Beautiful Soup–bs4 也是一个厉害的网络解析库Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。pip instal...

2019-08-06 11:09:38 203

原创 python_spider 06 XPATH，基础解析方法

XML解析神奇-- XPath。需要先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。什么是XMLXML 指可扩展标记语言（EXtensible Markup Language）XML 是一种标记语言，很类似 HTMLXML 的设计宗旨是传输数据，而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的...

2019-08-06 10:53:28 183

原创 python_spider 05 RE，正则表达式实战

我们要爬取的网站链接是 https://www.qiushibaike.com/text/page/1/ 。糗事百科我们要爬取的是里面的糗事，在之前的文章中我们已经可以爬取整个 url 链接里的 html 内容，那么我们就可以根据爬取到的 html 代码，再通过 re 模块匹配我们想要的内容即可。我们通过调用开发者工具检查 HTML 元素发现我们想要的内容在 … 内，根据这个我们可...

2019-08-06 10:40:39 167

原创 python_spider 04 网页解析（re 正则表达式）

什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。Python 的 re 模块在 Python 中，我们可以使用内置的 re 模块来使用正则表达式。有一点需要特别注意的是...

2019-08-05 18:04:35 344

翻译 python_spider 02-爬虫流程

爬虫的基本流程发起请求—获取响应—解析内容—保存数据向目标站点发起请求，就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应服务器能正常响应，会得到一个Response，页面内容类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件什么是Request,ResponseHTP...

2019-08-05 17:56:33 185

原创 python_spider 01-概念讲解

通用爬虫和聚焦爬虫（垂直爬虫）通用爬虫通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单地说就是爬虫不管三七二十一，把能爬的数据全部都采集下来，没有特殊目标数据之分。通用搜索引擎（Search Engine）工作原理1. 抓取网页首先选取一部分的种子URL，将这些URL放入待...

2019-08-05 17:26:07 346

原创 appium-desktop 安装顺序，2019.7更新

新人小白捣鼓了一天，来分享一下请按照以下顺序安装，否则有问题，不怪我哟，如果对你有用可以关注收藏一下哟node.js（自动配置path）java jdk（手动配置path，新版的jdk是没有jre的，可能是整合了，所以不用安装jre）android sdk（手动配置path，注意选择下载代理，原代理好像是谷歌，下载慢）appium-desktop（我这里有最新版的，官网下载太慢了，好几...

2019-07-29 09:54:42 441

原创关于智能货柜的调试系统（Python串口编程）

主要是这两个程序，已经上传到我的GitHub中，https://github.com/Shawn-fung/guizi智能货柜涉及到的模块有，红外模块。光感模块，显示屏，顶灯，还有就是货柜门的开启和状态的检测功能类似于，快递柜，生鲜柜这次只是用tk写的初期测试系统，不是正式的运行系统...

2019-07-15 13:57:41 1346

原创 Redis中文乱码问题的解决（你不知道的秘密）

若尝试了redis-cli --raw还是不能显示正常中文的话回头设置encoding=‘gbk’，在进入redis-cli --raw，就可以正常显示中文了

2019-04-19 00:20:23 4378 2

原创西刺ip代理采集和ip测试-国内免费高匿版本

采集程序熟悉xpath和bs4的用法coding:utf-8import timeimport requestsfrom bs4 import BeautifulSoupfrom fake_useragent import UserAgent #这是一个随机返回一个UA头的模块from lxml import etreeua = UserAgent()headers = {...

2019-04-09 16:22:14 2461

原创爬虫（js加密）-关于有道翻译的js加密简单破解

import requestsimport hashlibimport timeimport random#以下的值是在js文件中查找到的，有道主要是通过sign和salt（言）进行js加密的#sign = n.md5(“fanyideskweb” + e + i + “@6f#X3=cCuncYssPsuRUE”)#r = “” + (new Date).getTime() 155...

2019-04-08 22:45:11 224

原创史上最简单的多线程爬小说

import requestsimport threadingimport queuefrom lxml import etreeimport timeQ = queue.Queue()class A(threading.Thread): def __init__(self): threading.Thread.__init__(self) ...

2019-02-28 09:30:31 584

原创 python_spider 03 requsets 模块的使用

requsets 个人觉得系统自带的库不好用,以前学过自动自带的urblib 和request 库…想学隔壁转弯自学.学就从这个库开始学习一:reuqests 库的get 和post请求知识点:>:1 想要发送什么请求就调用什么请求的方法>:2response 的属性　　　　response.text() # 获取文本　　　　response.content() #以2...

2019-02-27 22:57:06 713