前面写了模拟登陆12306的文章,但验证码自动识别仍没有比较好的实现方式,看了 @那座荒城 的文章,可以利用百度文字识别和百度识图功能分别对验证码的文字和图片进行处理,实现自动识别(传送门Python3.x 12306自动登录完整实现)
百度文字识别功能根据文档说明很容易就实现,百度识图功能Python3.x 12306自动登录完整实现也有详细的代码说明,文章百度识图部分参考了fuck12306的实现方式(andelf/fuck12306),该方式使用了http://image.baidu.com/pictureup/uploadshitu?fr=flash&fm=index&pos=upload地址上传文件,成功上传后及可返回索搜的结果地址,使用的上传地址目前对百度识图页面进行抓包,怎么找也找不到,既然是现有没有开放的地址,使用起来总是别扭,研究了下,总算可以根据当前地址实现搜索功能,以下详细过程
我们先对一次完成的图片搜索进行抓包,结果页面的请求信息
结果页面地址如下:
http://image.baidu.com/pcdutu?queryImageUrl=http%3A%2F%2Fc.hiphotos.baidu.com%2Fimage%2F%2570%2569%2563%2Fitem%2Fb812c8fcc3cec3fd96b0c486dd88d43f869427b2.jpg&querySign=2989928016%2C2100245456&fm=index&uptype=upload_pc&result=result_camera&vs=6620bd7f76bc58783b1cc038597b0a4dfca6fbef
需要的参数如下:
fm:index
uptype:upload_pc
result:result_camera
vs:6620bd7f76bc58783b1cc038597b0a4dfca6fbef
其中queryImageUrl参数是URL,直接访问这个地址看看,就是我们要搜索的原图片
也就是说,我们在进行识图搜索时,会直接把图片上传到服务器并生成URL地址,再根据这个URL地址显示最终搜索结果
找找上传地址,在抓包的数据里看到有个upload的地址,很明显,应该就是这个了
不过post的数据和常见的数据格式好像不太一样,百度了这类数据的构造方法(参考文章使用python的requests 发送multipart/form-data 请求),最后成功请求并返回结果如下:
根据返回的URL和querySign的值,用于构造结果地址的参数,VS参数在抓包数据中看到时20位的字符串,使用VS=空的方式,不影响,也可以正常访问,具体获取就没有再研究
代码实现如下:
url = 'http://image.baidu.com/pcdutu/a_upload?fr=html5&target=pcSearchImage&needJson=true'
headers = {
"User-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"
}
files = {
'file':('1_10005.jpg',open(r'E:\12306_1\1_11.jpg','rb'),'image/jpeg'),
'pos':(None,'upload'),
'uptype':(None,'upload_pc'),
'fm':(None,'index')
}
resp = requests.post(url, files=files, headers=headers)
redirect_url = loads(resp.text)
result_url = 'http://image.baidu.com/pcdutu?'+'queryImageUrl='+redirect_url['url']+'&querySign='+redirect_url['querySign']+'&fm=index&uptype=upload_pc&result=result_camera&vs='
print(result_url)