requests 库安装
pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com requests
Selenium 安装
Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作
pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com selenium
ChrommeDriver 安装
前面安装好的ChromeDriver是一个自动化测试工具,需要浏览器来配合使用。
- 查看版本
点击Chrome菜单 “帮助” -> “关于 Google Chrome”,即可查看Chrome的版本号 - 版本号对应驱动
驱动 | 对应浏览器版本 |
---|---|
v2.33 | v60~62 |
v2.32 | v59~61 |
v2.31 | v58~60 |
v2.30 | v58~60 |
v2.29 | v56~58 |
v2.28 | v55~57 |
v2.27 | v54~56 |
v2.26 | v53~55 |
v2.25 | v53~55 |
v2.24 | v52~54 |
v2.23 | v51~53 |
-
找到对应版本后,到ChromeDriver驱动下载
-
下载完将chromedriver.exe文件解压到python的Scripts文件夹下
PhantomJS 安装
PhantomJS是一个无界面的、可脚本编程的 WebKit浏览器引擎,它原生指出多种Web标准:DOM操作、CSS选择器、JSON、Canvas以及SVG。
Selenium 支持PhantomJS,这样在运行的时候就不会再弹出一个浏览器了。而且 PhantomJS的运行效率也很高,还支持各种参数配置,使用非常方便。
下载后解压文件,将解压后的phantomjs.exe文件放到python的scripts文件夹下
aiohttp 安装
之前介绍的requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。其实,这个过程比较耗费时间。如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度、响应的处理等,那么爬取效率一定会大大提高。
aiohttp就是这样一个提供异步Web服务的库,从Python3.5版本开始,Python中加入了async/await关键字,使得回调写法更加直观和人性化。
pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com aiohttp
另外,官方还推荐安装如下两个库:一个是字符编码检测库cchardet,另一个是加速DNS的解析库aiodns。安装命令如下:
pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com cchardet aiodns