如何抓取需要验证码的网页？

最新推荐文章于 2022-07-23 19:50:36 发布

iteye_4614

最新推荐文章于 2022-07-23 19:50:36 发布

阅读量2.1k

点赞数

分类专栏：网页抓取文章标签：网页抓取蜘蛛 HttpClient

网页抓取专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近专门研究了下网页抓取，主要是研究对各种情况的抓取方法。今天张瑜介绍下需要验证码的网页抓取。

现在有些网页为了防止被抓取，它要求用户先填入验证码后，才能使用其服务。那我们的蜘蛛的工作就遇到了极大的障碍；因为它不能识别验证码！当然有同学说用OCR去识别，然后填入。这是个方向，但是总有些验证码是机器无法识别的。那我们怎么办？

办法其实还是有，既然蜘蛛不能识别验证码；那我们就必须用人识别后告诉它。可行吗？可行。众所周知，HTTP协议是无连接的协议，那么服务端判断客户端到底是否通过验证（成功输入验证码），一定是Browser传了点什么能代表自己身份的东西，比如cookie, 比如某个隐藏域的值等。既然如此，我们就可以人在网页上人工验证，然后把把与身份有关的信息找到(这个要具体情况具体分析，需要一些实验)，最后把这些信息告诉蜘蛛；这样蜘蛛就可以继续冒名的去访问服务端，而服务端认为它已经通过验证，不需要再输入验证码了。

该方法的主要思路就是回归事物的本源，不管你用什么方式实现的web服务，其根本都是http协议。具体方法论就是上面所述，实践也通过了。主要是要花时间找到能代码Browser身份的信息。注意，有些web server它对User Agent有过滤，有些User Agent明显是机器的，它们可能不会得到跟你在浏览器中返回的同样的内容；故有时候User Agent也需要设置。

我使用java去做，会用到httpClient, 然后用Chrome去抓取http请求的信息。欢迎各位提出自己的见解。

----------------------------------------------------------------------

张瑜，Mybeautiful , zhangyu0182@sina.com

推荐阅读，

Java学习这七年  如何阅读源代码  我应该做的更差吗？

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。