Selenium实战：如何跳过绕不过的登录验证

最新推荐文章于 2024-08-15 21:48:50 发布

fabbymee

最新推荐文章于 2024-08-15 21:48:50 发布

阅读量4k

点赞数 2

分类专栏： selenium 文章标签： selenium

selenium 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

背景

先说一下背景，今天的这个主题是来源于我之前工作中的实战经历，当时在做一个爬虫项目，遇到了非常牛逼的反爬验证，就是之前提到过的某度指数数据，当时费了九牛二虎之力才用selenium+firefox登录成功，可是好景不长，没过多久就发现登录出现了图形验证码了，像下方这样的，出现这东西总不能手工去输入吧，兵来将挡水来土掩，一言不合就开干！马上就想到了图形的OCR识别技术，这个也不麻烦，有很多现成的OCR框架和接口可以直接用，我这里就用了某度自家的OCR识别接口，上线后发现成功率不是很高，但是多刷几次遇到不太复杂的图像还是可以通过的，所以就这样解决了第一次对抗遇到的问题……

可是过了几个月，每个长假过后，突然发现DB的数据没有更新了，没有新数据入库，那就得去追溯爬虫是不是出问题了。连上线上机器，看了一下，什么时候开始登录给我加了短信验证码。。。。当时有种想骂人的冲动，这么变态。。。没办法继续对抗，出现短信验证码就必须要有一个手机客户端来接收验证码数据了，常规做法那只能写一个手机端的app应用去获取到验证码短信，然后再发送给服务端，然后再填入对应的验证码，登录成功，简单数据流程图如下：

思考

上面的反爬对抗已经到第二阶段了，虽然我用上面的手机接收验证码的方式可以解决短信验证码的问题，可是有没有想过后面还有第三阶段、第四阶段……的对抗，这样搞下去太累了，到最后只会对自己越来越不利，毕竟我们爬虫方是“进攻者”，抗到最后肯定会封我IP，各种折腾。。。所以在一个夜深人静的晚上，思考了一下：为什么会被对方加设各种登录门槛？无非不是对方检测到我的登录行为非常规，可是我已经是用模拟人工操作的selenium去做了，这还能被识别出来，还有其他方法吗？

改进

仔细思考一下，selenium启动浏览器的过程，默认情况下它是加载一个纯净版的浏览器（无插件+无浏览器缓存数据），也许这就是被判断为机器人的依据之一。那么为何启动时不配置上浏览器的本地缓存数据呢？对啊，为什么？想到就了试试：

1、先人工打开Firefox浏览器，输入某度指数地址，登录账号，记得勾选记住密码（将用户和密码数据写入浏览器本地缓存），关闭浏览器；
2、验证一下：再次打开浏览器，输入地址，如果不用登录，可以直接到数据页面，那么验证ok；
3、修改代码：之前的登录部分封装起来，因为本地缓存数据有一个有效期，所以在进入界面后如果发现没登录还是要再登录下的，new FirefoxDriver的时候加上使用本地浏览器配置，如下：

System.setProperty("webdriver.firefox.bin", SpiderConfig.getValue("webdriver.firefox.bin"));
FirefoxProfile firefoxProfile = new FirefoxProfile(new File(SpiderConfig.getValue("webdriver.firefox.profile.path")));
FirefoxDriver driver = new FirefoxDriver(firefoxProfile);

就是这么easy，就是这么随意，就这三行代码搞定！