前两次的任务还没跟上,今天把工作的事情往后推,直接做task3,也不知道能不能跟上。
3.1 任务内容
各位好,本次学习内容session和cookie,ip代理知识,selenium的使用,拔高:实现丁香园的模拟登录爬取留言板,学习链接如下:
https://github.com/datawhalechina/team-learning/tree/master/Python%E7%88%AC%E8%99%AB%E7%BC%96%E7%A8%8B%E5%AE%9E%E8%B7%B5/task3
本次打卡截止时间为25日23:59,打卡链接为:
https://shimo.im/forms/MwGxBOwTGMwMFlpd/fill
打卡结果查询链接:https://shimo.im/sheets/18AlXKYROpCgFxAB/MODOC/
相关问题可以参照学员手册:
https://shimo.im/docs/leRLotXkNqMvv7PN/read
注意:丁香园爬取代码,需要大家自己补充哟,参考代码会在24小时以后给出
公告标志:03
3.2 丁香园爬取过程遇到的问题
1)报错'webcrawler' executable may have wrong permissions和Message: 'chromedriver' executable needs to be in PATH,下载chromedriver,并配置环境变量,驱动下载地址:http://chromedriver.storage.googleapis.com/index.html
3.3 丁香园爬取代码
3.4 丁香园爬取的内容
3.5 丁香园原内容