python爬虫模块安装

最新推荐文章于 2024-04-24 13:35:29 发布

qiqiaiairen

最新推荐文章于 2024-04-24 13:35:29 发布

阅读量9.9k

点赞数

分类专栏： python网络爬虫文章标签： python 爬虫

python网络爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

urllib和urllib2

python2.x里urllib2库，在python3.x里，urllib2改名为urllib，被分成一些子模块：urllib.request, urllib.parse和urllib.error。尽管函数名称大多数和原来一样，但是在用新的urllib库时需要注意哪些函数被移动到子模块里了。

urllib是python的标准库，包含了从网络请求数据，处理cookie，甚至改变像请求头和用户代理这些元数据的函数。

urlopen用来打开并读取一个从网络获取的远程对象。它可以轻松读取HTML文件、图像文件或其他任何文件流。

安装BeautifulSoup

它通过定位HTML标签来格式化和组织复杂的网络信息，用简单易用的python对象为我们展现XML结构信息。

由于BeautifulSoup库不是python标准库，因此需要单独安装。我们使用最新的BeautifulSoup4版本（也叫BS4）。

sudo apt-get install python-bs4

如果你的设备同时安装了python2.x和python3.x，你需要用python3运行。

安装python的包管理器pip

sudo apt-get install python-pip

通过python的包管理pip，运行

pip install beautifulsoup4

同时存在python2.x和python3.x，安装包可能安装到了python2.x而不是python3.x里。

如果用pip3安装，你可以用pip3安装python3.x版本的包

pip3 install beautifulsoup4

可以在python终端里导入它测试一下：

from bs4 import BeautifulSoup

上述情况报错，

最后解决方案：

<pre name="code" class="plain">sudo apt-get install python-bs4 python3-bs4

BeautifulSoup库最常用的对象就是BeautifulSoup对象。

任何HTML或XML文件的任意节点信息都可以被提取出来，只要目标信息的旁边或附近有标记就行。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫模块安装

urllib和urllib2python2.x里urllib2库，在python3.x里，urllib2改名为urllib，被分成一些子模块：urllib.request, urllib.parse和urllib.error。尽管函数名称大多数和原来一样，但是在用新的urllib库时需要注意哪些函数被移动到子模块里了。urllib是python的标准库，包含了从网络请求数据，处理cooki
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。