最近有个需求,需要处理验证码,以前的解决方案是接打码平台进行处理,但是一个好的爬虫不应该是0成本吗?于是,强迫自己花了一天的时间好好的研究了一下tesseract, 在此总结以下步骤
- 获取灰度图
image = Image.open(image_path).convert('L')
- 二值化图像
#1.画直方图显示灰度值分布情况, 观察获取阀值
w, h = image.size
gray_dict = defaultdict(int)
for x in range(w):
for y in range(h):
pixel = image.getpixel((x, y))
gray_dict[pixel] += 1
plt.bar(list(gray_dict.keys()), list(gray_dict.values()))
plt.show()
#2.二值化
image.point(lambda x:0 if x < 阀值 else 255)
#image.point(lambda x:0 if x < 阀值 else 1, '1')
- 去除干扰
遍历像素点,根据像素点周围的八个点的颜色值,判断是否为噪点,是噪点把它设置为白色,具体情况根据图像进行处理
- 切割图片
如果图像中的字符紧挨着,会导致识别率很低,这种情况下最好先进行切割处理
- 识别验证码
text