urllib库和re库
import urllib
import urllib.request
urllib.request.urlopen('http://www.baidu.com') #此处为英文圆括号
requests库
js渲染的网页无法用requests请求
selenium库
可请求js渲染后的网页
使用测试:
缺少Chromedriver,使用pip安装失败,
可到http://chromedriver.storage.googleapis.com/
或镜像网站:http://npm.taobao.org/mirrors/chromedriver/77.0.3865.10/
下载
解压后放到python安装位置的script文件夹内
重新打开shell测试
Chromedriver安装成功!
输入以下命令行检验是否可用
from selenium import webdriver
driver = webdriver.Chrome()
自动跳出Chrome浏览器该页面,证明可用
输入命令行driver.get('http://www.baidu.com')
可自动跳转到指定页面,driver.page_source
显示网页源代码
注意:如果不想让浏览器跳出,可使用phantomjs(已停止维护,新版selenium不支持,需要下载旧版)
beautifulSoup4和openpyxl
pyquery网页解析库
安装并验证
>>> from pyquery import PyQuery as pq
>>> doc = pq('<html></html>')
>>> doc = pq('<html>zhengyuting</html>')
>>> result = doc('html').text()
>>> result
进入https://pythonhosted.org/pyquery/
查看更多pyquery语法
pandas
flask库
代理获取与存储的接口
Django
直接用pip安装即可,此处由于网络原因一直安装失败,所以我用了另一种方法:
到Django官网下载安装包,解压到Python同级根目录
使用以下命令:
cd Django所在目录
python setup.py install
开始安装
此处缺少sqlparse文件,如果不能pip就去官网下载:
在环境变量path里添加Django路径:
测试运行,成功!
使用pycharm时遇到库没有导入的问题
使用pycharm时,导入包会出现错误
解决方案如下:
解释器重新配置即可