Python对旋转图片验证码的识别和破解
本文主要使用python + selenium来破解旋转突破的验证码;其中用到numpy和OpenCV(CV2)来进行图片拼接,转换,遮罩,识别等,共分为三个部分:
(一)旋转图片的正确位置
旋转突破最难的在于如何计算旋转角度,我们不可能用人工智能的方式来自动识别图片摆正的位置,那么我们只能遍历可能出现的图片并保存。通常遍历有两种可能:
- HTML代码中有所有图片的链接或Base64图片数据
- 程序自动运行,抓取图片,分析图片的异同,然后手工调正
第一种方法
图片1的方法很简单,比如51fapiao开出的发票url,当需要下载或浏览发票时,会有一个验证码,这个验证随机出现滑动验证码或者旋转验证码,但检查其出现验证码的html时,发现它保存有所有正确验证码图片的url列表
# 使用正则表达式取出所有的正确图像的url
html = driver.page_source
url_list = re.findall(
"\'(http[^\']+?\d+?\.(?:jpg|png))\'", html, re.S)
# 旋转图片通常是一个正方形,假设宽高分别为w,h(通常w = h)
# 为了识别的方便,需要将所有图像拼接到一起,形成一行图像(或1列图像)
n = len(url_list)
img_all = np.zeros((h, w*n), dtype=np.uint8)
n = 0
for img_url in url_list:
try:
# 下载图像并载入
r = requests.get(img_url)
img_tmp = cv2.imdecode(np.asarray(
bytearray(r.content), dtype=np.uint8), cv2.IMREAD_COLOR)
except:
continu