机器图像识别验证码

最新推荐文章于 2024-03-20 15:18:01 发布

起風、

最新推荐文章于 2024-03-20 15:18:01 发布

阅读量387

点赞数 2

分类专栏：爬虫文章标签：机器学习验证码爬虫

本文链接：https://blog.csdn.net/j123__/article/details/83757150

版权

本文探讨了如何处理网络验证码，特别是针对知乎网站的验证码。介绍了一种常见方法，涉及下载验证码图片，清理并利用Tesseract进行识别。此外，还提及了处理中文字符的可能性，并指出了使用特定语言进行识别的步骤。

摘要由CSDN通过智能技术生成

对知乎网验证码进行处理：

许多流行的内容管理系统即使加了验证码模块，其众所周知的注册页面也经常会遭到网络机器人的垃圾注册。

那么，这些网络机器人究，竟是怎么做的呢?既然我们已经，可以成功地识别出保存在电脑上的验证码了，那么如何才能实现一个全能的网络机器人呢?

大多数网站生成的验证码图片都具有以下属性。

它们是服务器端的程序动态生成的图片。验证码图片的 src 属性可能和普通图片不太一样，比如 <img src="WebForm.aspx?id=8AP85CQKE9TJ">，但是可以和其他图片一样进行下载和处理。
图片的答案存储在服务器端的数据库里。
很多验证码都有时间限制，如果你太长时间没解决就会失效。
常用的处理方法就是，首先把验证码图片下载到硬盘里，清理干净，然后用 Tesseract 处理图片，最后返回符合网站要求的识别结果。

import requests
import time
import pytesseract
from PIL import Image
from bs4 import BeautifulSoup

def captcha(data):
    with open('captcha.jpg','wb') as fp:
        fp.write(data)
    time.sleep(1)
    image = Image.open("captcha.jpg")
    text = pytesseract.image_to_string(image)
    print "机器识别后的验证码为