python爬虫相关库安装
python爬虫涉及的库:
请求库,解析库,存储库,工具库
requests安装
pip3 install requests
selenium安装(驱动浏览器进行网站访问行为)
pip3 install selenium
安装chromedriver
网址:https://npm.taobao.org/
把下载完成后的压缩包解压,把exe放到D:\Python3.6.0\Scripts
这个路径只要在PATH变量中就可以
回车后弹出chrome浏览器界面
安装其他浏览器
无界面浏览器phantomjs
下载网址:http://phantomjs.org/
下载完成后解压,把整个目录放到D:\Python3.6.0\Scripts\,把bin目录的路径添加到PATH变量
phantomjs
console.log(‘phantomjs’)
解析库
lxml (XPATH)
pip3 install lxml
或者从https://pypi.python.org下载,例如,lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下载whl文件
pip3 install 文件名.whl
beautifulsoup
打开CMD,需要先安装好lxml
pip3 install beautifulsoup4
pyquery(类似jquery语法)
pip3 install pyquery
存储库
pymysql(操作MySQL,关系型数据库)
安装:
pip3 install pymysql
pymongo(操作MongoDB,key-value)
安装
pip3 install pymongo
redis(分布式爬虫,维护爬取队列)
安装:
pip3 install redis
工具库
flask(WEB库)
pip3 install flask
Django(分布式爬虫维护系统)
pip3 install django