Python学习——爬虫常用库

urllib库和re库

import urllib
import urllib.request
urllib.request.urlopen('http://www.baidu.com') #此处为英文圆括号


在这里插入图片描述

requests库

在这里插入图片描述
js渲染的网页无法用requests请求

selenium库

在这里插入图片描述
可请求js渲染后的网页
使用测试:在这里插入图片描述
缺少Chromedriver,使用pip安装失败,在这里插入图片描述
可到http://chromedriver.storage.googleapis.com/或镜像网站:http://npm.taobao.org/mirrors/chromedriver/77.0.3865.10/下载
解压后放到python安装位置的script文件夹内
重新打开shell测试
在这里插入图片描述
Chromedriver安装成功!
输入以下命令行检验是否可用

from selenium import webdriver
driver = webdriver.Chrome()

在这里插入图片描述
自动跳出Chrome浏览器该页面,证明可用
输入命令行driver.get('http://www.baidu.com')可自动跳转到指定页面,driver.page_source显示网页源代码在这里插入图片描述
在这里插入图片描述
注意:如果不想让浏览器跳出,可使用phantomjs(已停止维护,新版selenium不支持,需要下载旧版)

beautifulSoup4和openpyxl

在这里插入图片描述
在这里插入图片描述

pyquery网页解析库

安装并验证

>>> from pyquery import PyQuery as pq
>>> doc = pq('<html></html>')
>>> doc = pq('<html>zhengyuting</html>')
>>> result = doc('html').text()
>>> result

在这里插入图片描述
在这里插入图片描述
进入https://pythonhosted.org/pyquery/查看更多pyquery语法

pandas

在这里插入图片描述

flask库

代理获取与存储的接口
在这里插入图片描述

Django

直接用pip安装即可,此处由于网络原因一直安装失败,所以我用了另一种方法:
到Django官网下载安装包,解压到Python同级根目录
使用以下命令:

cd Django所在目录
python setup.py install

开始安装
在这里插入图片描述
在这里插入图片描述
此处缺少sqlparse文件,如果不能pip就去官网下载:
在环境变量path里添加Django路径:在这里插入图片描述
测试运行,成功!
在这里插入图片描述

使用pycharm时遇到库没有导入的问题

使用pycharm时,导入包会出现错误
解决方案如下:
解释器重新配置即可
在这里插入图片描述

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值