声明:本文章中所有内容仅供学习交流,不可用于任何商业用途和非法用途,否则后果自负,如有侵权,请联系作者立即删除!由于本人水平有限,如有理解或者描述不准确的地方,还望各位大佬指教!!
练习网站:
Q3JhenkgUHJvTW9ua2V5IGh0dHA6Ly96Z2N4Lm5oYy5nb3YuY246OTA5MC91bml0L2luZGV4
网站分析:
打开开发者工具,首先寻找验证码加载接口
查看接口发现,我们需要找到guid生成入口。对该接口简单跟栈就能找到具体位置
那么验证码接口就能拿到了,保存接口返回的需要识别的三个文字以及图片字节流至本地。然后继续观察网站怎么对验证码信息进行操作。按顺序点选后会出现验证成功提示,其接口则是检录了待识别的三个文字的坐标信息,验证成功后返回1
那么接下来需要完成的就是对待识别文字的坐标识别,这里小编使用的是ddddocr工具进行的识别。经过对已保存验证码图片的文字目标识别、绘制图片轮廓、剪裁目标文字、识别目标文字、填充目标文字等操作,最后生成点选的文字坐标结果
def draw_img(self, content, xy_list):
"""画出图片"""
# 填字字体
font_type = "zgcx.ttc"
font_size = 20
font = ImageFont.truetype(font_type, font_size)
# 识别
img = Image.open(BytesIO(content))
draw = ImageDraw.Draw(img)
words = []
for row in xy_list:
# 框字
x1, y1, x2, y2 = row
draw.line(([(x1, y1), (x1, y2), (x2, y2), (x2, y1), (x1, y1)]), width=1, fill="red")
# 裁剪出单个字
corp = img.crop(row)
img_byte = BytesIO()
corp.save(img_byte, 'png')
# 识别出单个字
word = self.ocr.classification(img_byte.getvalue())
words.append(word)
# 填字
y = y1 - 30 if y2 > 300 else y2
draw.text((int((x1 + x2) / 2), y), word, font=font, fill="red")
img.show()
return words
def ddddocr_clcik_identify(self, content, crop_size=None):
"""目标检测识别"""
img = Image.open(BytesIO(content))
# print(img.size)
if crop_size:
img = img.crop(crop_size)
img_byte = BytesIO()
img.save(img_byte, 'png')
content = img_byte.getvalue()
xy_list = self.xy_ocr.detection(content)
words = self.draw_img(content, xy_list)
return dict(zip(words, xy_list))
模拟验证码请求,进行点选结果测试
初步来看,识别结果还算可以,传入点选接口,模拟点选动作,查看接口是否返回 ‘1’
调试观察到响应结果为 ‘1’ ,那么模拟点选成功的动作就完成了。再次观察网站,点选成功后点击查询,查询结果链接还有一个加密字段,而该字段则是上一次请求网站页面时验证码弹框的input标签值
将该参数做保存,在控制台打印
所有参数都准备完成后,就可以请求数据了,结果如图
那么,今日的分享就到这里,想要学习更多的python爬虫和js逆向的相关技巧和知识的小伙伴们一定要点下关注哟,后期会不定时分享相关干货内容