今日因为工作需要,需要抓取淘宝上一些商品详情信息,而商品详情信息必须要在登陆以后才能进行访问,所以想要抓取商品信息,模拟登陆是第一个必须要解决的问题。
淘宝的模拟登陆说难也不难,说不难,也蛮多坑的。今天就在这把我破解淘宝登陆的整个完整过程,细细给你说来。(PS:看完后,觉得有帮助,麻烦点个在看呗!)
思路:
获取你在网上已经找了很多资料,用fiddler
工具或者mitmproxy
代理设置response
,然后修改js
,目的是为了掩盖自己是selenium
驱动的真相,也就是想修改window.navigator.webdriver
的属性。这种方法听起来很美丽,但是实践起来还是不太理想。今天我们用到的技术栈是selenium+chromedriver
,后面的修改都是针对这两个来的。
关键点:
不浪费大家时间,直接上重点。要想破解淘宝的登录,必须要解决两个问题:
- 修改
webdriver
的特有标识。 - 修改
window.navigator.webdriver
值为false
。
隐藏chromedriver
身份:
1. 修改webdriver
特有标识
根据stackoverflow