文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn
上次的文章《在爬100万数据的时候,我发现了爬虫的进阶之路》 ,有“怂恿”大家伙去突破淘宝的登录反爬,不知道有没有试了的。反正我是试了,也找到了三种方法。在这里分享一下
- 账号密码登录(有滑块)
- 微博第三方账号登录(无滑块)
- 扫码登录
上面都是使用 Selenium
进行模拟登录的,这样就可以不用手动添加各种Cookie
或者Session
,少了很多工作。
# 淘宝账号登录
一般直接使用Selenium
自动控制登录,都会无法通过滑块验证。所以解决的策略就是让这些网站识别不出来你是用了Selenium
,因此需要将模拟浏览器设置为开发者模式,这样就可以防止被网站识别出来。
只需要在初始化时,添加下面这条语句,就可以设置为开发者模式。
# 此步骤很重要
options.add_experimental_option(