python 验证码字符分割

_feiji

于 2020-11-27 13:08:04 发布

阅读量1.4k

点赞数 2

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011796949/article/details/110226346

版权

使用tesseract-ocr识别验证码准确率低，尝试通过图片二值化后自定义训练字体。针对字符相邻问题，设置长度判断，但效果有限，尤其在处理w字符时。考虑过滤掉像素点过多的图片，优化训练集。

摘要由CSDN通过智能技术生成

用tesseract-ocr 识别率不高，想要自己训练字体

这里用的是中国知网注册页面的验证码

在这里插入图片描述

实现思路，图片二值化后，遍历每一个像素点找到起始像素，向上下左右寻找相邻像素直至结束。有个问题就是若两个字符挨着就会把全部相邻的字符都找到

加了个简单的判断，限制字体长度

然而效果不是很好，如果是两个长度较短的字符相邻还是没有用，w字符容易丢失像素，没有太好的解决办法。另一个解决方法把像素点过多的图片去除，剩下的图片可以用来训练字体
在这里插入图片描述

# 下载验证码
import requests
import os

path = os.path.dirname(__file__)

for i in range(10):
    url = 'https://my.cnki.net/Register/CheckCode.aspx?id=1605429917005'

    response = requests.get(url)
    file_path = path + '/jpg/{}.jpg'.format(i)

    with open(file_path,'wb') as f:
        f.write(response.content)

图片处理

from PIL import Image
import sys
import os

sys.setrecursionlimit(1000000)
pixel_list = []
all_pixel_list = []

#二值化
def Binarization(image):

    threshold = 160
    table = []
    for i in range(256):
        if i < threshold:
            table.append(0)
        else:
            table.append(1)
    image = image.point(table, '1'

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

_feiji CSDN认证博客专家 CSDN认证企业博客

码龄11年

13: 原创

20万+: 周排名

92万+: 总排名

1万+: 访问

: 等级

192: 积分

4: 粉丝

13: 获赞

22: 评论

41: 收藏

私信

关注

热门文章

最新评论

python 验证码字符分割
qq_51385145: 大佬，请问出现这样的错误该怎么解决：IndexError: image index out of range
Docker splash web页面加载错误
kirito12136: 你下面那个zhangsun2008其实就讲得挺清楚的
Docker splash web页面加载错误
kirito12136: 话说其实也根本不用怎么麻烦，最后启动容器的时候只要把容器内的resources.py给换掉就行了，没必要把整个splash文件夹给换了，把最后那个改成docker run --name my-splash -p 8050:8050 -v /c/Users/Administrator/data/splash-master/splash/resources.py:/app/splash scrapinghub/splash/resources.py 就行了
Docker splash web页面加载错误
kirito12136: 因为GitHub上下载的splash源码的splash-master\splash\vendor\harviewer文件夹下缺了很多文件，所以你要先从原先的容器中的/app/splashendor/harviewer替换掉GitHub上下载的splash-master\splash\vendor\harviewer文件夹指令为docker cp 容器ID:/app/splashendor/harviewer /Users/Administrator/AppData/Local/Programs/Python/（这是我随便选的路径）复制后换掉GitHub上下载的splash-master\splash\vendor\harviewer文件夹最后执行docker run --name my-splash -p 8050:8050 -v /c/Users/Administrator/data/splash-master/splash:/app/splash scrapinghub/splash OK
Docker splash web页面加载错误
LvTzTz: 百度一下你就知道

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。