假期,老师给布置了 Python 爬虫中国知网论文的任务,目前实现了登录和搜索功能,先写一下遇到的坑和解决办法吧。
Python 爬虫中国知网论文过程中遇到的坑及解决办法
一. selenium 模块
概念:是一个基于浏览器自动化的模块。
其与爬虫间的关系:
- 便捷捕获到动态加载的数据(可见即可得);
- 实现模拟登录。
缺点:慢。(可以理解成 requests 模块可能 1 秒发起 10 个请求,但 selenium 可能 1 秒只发起 1 个请求)
环境安装:pip install selenium
基本使用:
- 使用某一款浏览器的驱动程序;
- 实例化某一款浏览器对象。
1. 浏览器驱动程序下载与安装
(!坑:一直寻找和自己谷歌浏览器对应版本的驱动,没找到,结果换了一个稍低版本的驱动竟然也兼容。学我如果报错了,憋找我。。。)
- Google Chrome 浏览器下载:https://www.google.cn/chrome/
- Google 驱动程序 chromedriver 下载:https://npm.taobao.org/mirrors/chromedriver <