python实现搜索功能_python实现百度识图搜索功能

前面写了模拟登陆12306的文章,但验证码自动识别仍没有比较好的实现方式,看了 @那座荒城 的文章,可以利用百度文字识别和百度识图功能分别对验证码的文字和图片进行处理,实现自动识别(传送门Python3.x 12306自动登录完整实现)

百度文字识别功能根据文档说明很容易就实现,百度识图功能Python3.x 12306自动登录完整实现也有详细的代码说明,文章百度识图部分参考了fuck12306的实现方式(andelf/fuck12306),该方式使用了http://image.baidu.com/pictureup/uploadshitu?fr=flash&fm=index&pos=upload地址上传文件,成功上传后及可返回索搜的结果地址,使用的上传地址目前对百度识图页面进行抓包,怎么找也找不到,既然是现有没有开放的地址,使用起来总是别扭,研究了下,总算可以根据当前地址实现搜索功能,以下详细过程

我们先对一次完成的图片搜索进行抓包,结果页面的请求信息

结果页面地址如下:

http://image.baidu.com/pcdutu?queryImageUrl=http%3A%2F%2Fc.hiphotos.baidu.com%2Fimage%2F%2570%2569%2563%2Fitem%2Fb812c8fcc3cec3fd96b0c486dd88d43f869427b2.jpg&querySign=2989928016%2C2100245456&fm=index&uptype=upload_pc&result=result_camera&vs=6620bd7f76bc58783b1cc038597b0a4dfca6fbef

需要的参数如下:

fm:index

uptype:upload_pc

result:result_camera

vs:6620bd7f76bc58783b1cc038597b0a4dfca6fbef

其中queryImageUrl参数是URL,直接访问这个地址看看,就是我们要搜索的原图片

也就是说,我们在进行识图搜索时,会直接把图片上传到服务器并生成URL地址,再根据这个URL地址显示最终搜索结果

找找上传地址,在抓包的数据里看到有个upload的地址,很明显,应该就是这个了

不过post的数据和常见的数据格式好像不太一样,百度了这类数据的构造方法(参考文章使用python的requests 发送multipart/form-data 请求),最后成功请求并返回结果如下:

根据返回的URL和querySign的值,用于构造结果地址的参数,VS参数在抓包数据中看到时20位的字符串,使用VS=空的方式,不影响,也可以正常访问,具体获取就没有再研究

代码实现如下:

url = 'http://image.baidu.com/pcdutu/a_upload?fr=html5&target=pcSearchImage&needJson=true'

headers = {

"User-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"

}

files = {

'file':('1_10005.jpg',open(r'E:\12306_1\1_11.jpg','rb'),'image/jpeg'),

'pos':(None,'upload'),

'uptype':(None,'upload_pc'),

'fm':(None,'index')

}

resp = requests.post(url, files=files, headers=headers)

redirect_url = loads(resp.text)

result_url = 'http://image.baidu.com/pcdutu?'+'queryImageUrl='+redirect_url['url']+'&querySign='+redirect_url['querySign']+'&fm=index&uptype=upload_pc&result=result_camera&vs='

print(result_url)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值