python爬虫模块安装

urllib和urllib2

python2.x里urllib2库,在python3.x里,urllib2改名为urllib,被分成一些子模块:urllib.request, urllib.parse和urllib.error。尽管函数名称大多数和原来一样,但是在用新的urllib库时需要注意哪些函数被移动到子模块里了。

urllib是python的标准库,包含了从网络请求数据,处理cookie,甚至改变像请求头和用户代理这些元数据的函数。

urlopen用来打开并读取一个从网络获取的远程对象。它可以轻松读取HTML文件、图像文件或其他任何文件流。


安装BeautifulSoup

它通过定位HTML标签来格式化和组织复杂的网络信息,用简单易用的python对象为我们展现XML结构信息。

由于BeautifulSoup库不是python标准库,因此需要单独安装。我们使用最新的BeautifulSoup4版本(也叫BS4)。

sudo apt-get install python-bs4
如果你的设备同时安装了python2.x和python3.x,你需要用python3运行。

安装python的包管理器pip

sudo apt-get install python-pip


通过python的包管理pip,运行

pip install beautifulsoup4



同时存在python2.x和python3.x,安装包可能安装到了python2.x而不是python3.x里。


如果用pip3安装,你可以用pip3安装python3.x版本的包

pip3 install beautifulsoup4

可以在python终端里导入它测试一下:

from bs4 import BeautifulSoup
上述情况报错,
最后解决方案:
<pre name="code" class="plain">sudo apt-get install python-bs4 python3-bs4

 


BeautifulSoup库最常用的对象就是BeautifulSoup对象。


任何HTML或XML文件的任意节点信息都可以被提取出来,只要目标信息的旁边或附近有标记就行。









  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值