如何抓取需要验证码的网页?

    最近专门研究了下网页抓取,主要是研究对各种情况的抓取方法。今天张瑜 介绍下需要验证码的网页抓取。

   

    现在有些网页为了防止被抓取,它要求用户先填入验证码后,才能使用其服务。那我们的蜘蛛的工作就遇到了极大的障碍;因为它不能识别验证码!当然有同学说用OCR去识别,然后填入。这是个方向,但是总有些验证码是机器无法识别的。那我们怎么办?


    办法其实还是有,既然蜘蛛不能识别验证码;那我们就必须用人识别后告诉它。可行吗? 可行。众所周知,HTTP协议是无连接的协议,那么服务端判断客户端到底是否通过验证(成功输入验证码),一定是Browser传了点什么能代表自己身份的东西,比如cookie, 比如某个隐藏域的值等。既然如此,我们就可以人在网页上人工验证,然后把把与身份有关的信息找到(这个要具体情况具体分析,需要一些实验),最后把这些信息告诉蜘蛛;这样蜘蛛就可以继续冒名的去访问服务端,而服务端认为它已经通过验证,不需要再输入验证码了。


    该方法的主要思路就是回归事物的本源,不管你用什么方式实现的web服务,其根本都是http协议。具体方法论就是上面所述,实践也通过了。主要是要花时间找到能代码Browser身份的信息。注意,有些web server它对User Agent有过滤,有些User Agent明显是机器的,它们可能不会得到跟你在浏览器中返回的同样的内容;故有时候User Agent也需要设置。


    我使用java去做,会用到httpClient, 然后用Chrome去抓取http请求的信息。欢迎各位提出自己的见解。

 

----------------------------------------------------------------------

张瑜,Mybeautiful , zhangyu0182@sina.com

 

推荐阅读,

Java学习这七年     如何阅读源代码     我应该做的更差吗?

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值