爬知网验证码图片踩坑记录

最新推荐文章于 2024-03-20 15:18:01 发布

LMWL

最新推荐文章于 2024-03-20 15:18:01 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/weixin_41001187/article/details/86761346

版权

最近刚开始学习爬虫，就想着去爬一些网站的验证码，练习一下。在成功爬取了七万多张学校网站的验证码之后，又想着去爬知网下载验证码，但是由于没有学过网站知识，遇到了知网的验证码图片链接，长这样：

https://worldwide.espacenet.com/captchaChallengeGenerator?rnd=1

我当时想都没想，直接开了50个进程开始下载，没想到，瞬间就结束了，去看文件，一个都没有。。。。。

然后去Google查了一下才发现，这种链接里面没有有效的图片后缀，然后又看了一下自己的请求头的Accept是默认的*/*，所以可以将headers写成这样就行：

head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",
        "accept": "image/webp,image/apng,image/*,*/*;q=0.8",
        "accept-encoding": "gzip, deflate, br",
        "accept-language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7,ja;q=0.6",
        "cookie": ""}

然后就能愉快地爬取验证码了