年度催泪大剧:2020,我一定会回来的!
年度最佳拒绝白嫖奖:一起学爬虫(Python) — 19 年轻人,进来学自动化
略显夸张,略显。
但是还是希望,也不是希望吧,是卑微地渴望各位姥爷,给个赞吧T-T
论爬某妈妈的另一种方式
前言
我被绑架了,竟然三天没有更新,这个…
对,就理解为我被绑架了吧!
最近不是有那个年度征文嘛,然后我就参加了一下,毕竟……
高情商:你写的那么好,一下就吸引了一堆小学生来看,一定能获取评委的认可的!
低情商:就你还参加个xx
所以希望各位能高抬贵手,让我输得不要太惨,拜托啦~~
就亿次!!!
点这里:2020,我一定会回来的!
那么…点赞的事情,就拜托了,轻一点哦~
自动化获取cookies
前景回顾:蝉妈妈,嘿嘿
至于为什么要用自动化,这里我们选择selenium。不过想要实现自动化操作有很多种方法,而且最近不是新出了一个更方便的嘛,我没记名字,你打我啊。
不过这里我们先用selenium对整体的思路进行一个理解,日后再进行新的方式的传销 传播。
我们上次爬取蝉妈妈的商品信息的时候,是分了两大步。
第一步是获取了登陆后的cookie。
第二步是用带有登录后cookie的headers进行一个post请求,然后获取了那些我们需要的,也可以是不需要的,但是这里假装我们是需要的,的数据。
那么我们进行模拟登陆的这个操作,就是最难的了吧,相对来说嘛。
如果你要说处理那些数据是更难的操作的话…那就听你的吧,不过处理数据的方法是可以一直用的嘛,但是不同的网站就有不同的登录方式,是多变的,所以相对来说还是我说的比较对,你要听话。
从上一次的结果来看,大致可以推断出,我们只要获得登陆后的cookies,就不用进行账号密码的输入了,就是可以直接绕过登录了,也就避开了验证码这一个超级烦人的环节。
那就来让我们偷偷地潜入…
获取cookies!
这一呢,我们是用selenium进行一个cookies的获取。
这里为什么说是cookies,而前面是cookie呢?
因为cookie是有很多的,可以理解为合起来就是一个字典!
cookies里面放的是一条一条的cookie,有的有用,有的只是说明一下ip鸭,时间鸭什么的,是属于可有可无的。
可以选择全都放进去,也可以选择细一点,只放我们需要的!
这里我们先用selenium进行一个模拟的登录~
# 导入sleep是为了等待一下,确保网页可以加载完,避免出现还没加载出来程序就走完了的情况
from selenium import webdriver
from time import sleep
导入这些呢,就不多说了,关于等待其实也是有三种等待的,如果想要详细了解可以到 一起学爬虫(Python) — 22 自动化详解 了解一哈~
如果你让我推荐一个的话,做大项目肯定是要显式等待,随便玩玩的话sleep就够用了。
# 初始化driver对象
driver = webdriver.Chrome(executable_path='./chromedriver.exe')
# 打开指定页面
driver.get('https://www.chanmama.com/login')
这里有的人可能会先打开https://www.chanmama.com/然后点击里面的登录按钮,其实没必要哦,直接放登录界面的url进去就好了。
如果初始化那里错了,可能就是你的浏览器引擎版本不对,或者路径不对。
# 这里也可以注释掉,在下面的send_keys里面手动写上自己的账号密码
tmf = input