Python爬虫连载16-OCR工具Tesseract、Scrapt初步

一、验证码破解

1.(上承连载15)极验

(1)官网:http://www.geetest.com

破解比较麻烦、可以模拟鼠标移动、一直在进化

二、Tesseract

1.机器视觉领域的基础软件

2.OCR​:OpticalCharacterRecognition

3.Tesseract​:一个OCR库,有谷歌资助

​安装:https://blog.csdn.net/showgea/article/details/82656515

 

import pytesseract as pt

import os

​

# os.path()

from PIL import Image

#生成图片实例

image = Image.open(r"C:\Users\lenovo1\untitled\image\testOCR.jpg")

#调用pytesseract,把图片转换为文字

text = pt.image_to_string(image)

print(text)

 

 

三、爬虫框架Scrapy

1.常见的爬虫框架scrapy\pyspider\crawley,基本都是开源的

2.官方文档:https://docs.scrapy.org/en/latest/

3.该框架包含如下各个部件

(1)ScrapyEngine:神经中枢、大脑、核心

(2)Scheduler​调度器:引擎发来的request请求,调度器需要处理,然后​交换引擎。

(3)Downloader​下载器:把引擎发来的requests发出请求,得到response

(4)Spider​爬虫:负责把下载器得到的网页/结果进行分解,分解成数据+链接​。

(5)Item​Pipeline管道:详细处理Item

(6)DownloaderMiddleware​下载中间件:自定义下载的功能扩展组件

(7)Spidermiddleware​爬虫中间件:

4.爬虫项目大概流程

(1)​新建项目:scrapy startproject xxx

(2)明确需要的目标/产出​:编写item.py

(3)​制作爬虫:​地址:spider/xxspider.py

(4)​存储内容:pipelines.py​

四、源码

Reptile16_1_VertificationCodeRecognition.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile16_1_VertificationCodeRecognition.py

2.CSDN:https://blog.csdn.net/weixin_44630050

3.博客园:https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值