python beautifulsoup抓取网页内容_使用request和BeautifulSoup来爬取网页内容

最新推荐文章于 2022-06-08 10:39:17 发布

weixin_39586353

最新推荐文章于 2022-06-08 10:39:17 发布

阅读量597

点赞数

文章标签： python beautifulsoup抓取网页内容

目前可以基本上说是Python的天下，Python真的是非常火的一门编程语言，而且它非常的简单，以至于小学生都可以学会，那么作为已经成年的我，更应该学习这门编程语言了，下面我就将自己在学习Python爬虫时遇到的问题进行简单的总结：

既然要使用Python爬取网站信息，那么我们就需要知道怎么使用Python才能爬取到我们需要的信息，这就牵扯到我们今天需要介绍的内容：requests库

首先是安装requests库：如下图所示：

安装requests库

代码如下：

pip install requests

需要注意的一点是，如果安装出现了错误，这个时候需要更换到国内的源，国内的是使用的是豆瓣，具体方法，请自行百度。

安装jupyter

具体的安装步骤：请参阅Python学习之Jupyter Notebook和highchart安装，下面我们就可以是用jupyter来书写代码，而且操作方法。

爬虫代码

当然我们练习的时候，可以使用简书的网站来爬取数据，代码如下：

# -*- coding: utf-8 -*-

import requests

url = 'http://www.jianshu.com'

res = requests.get(url)

print(res.text)

就可以答应出下面图片中所示的内容，跟简书网站比较，就发现我们已经完整的将简书网首页的数据爬取下来了。如图：

爬取的网页信息

使用BeautifulSoup来解析网页数据

现在我们是已经将网页整个html页面拿到了，可是这里面包含很多的标签，我们需要去掉标签，将标签中的有用的信息展示出来，那么就需要使用另外一个非常好用的Python库--BeautifulSoup，到底如何解析标签中的数据内，我们可以通过查看文档(Beautiful Soup 4.2.0 文档)来进行解析，也可以浏览视频，而且现在的在线教育的视频资源是非常丰富的。

下面我就展示其中的一种解析方法，当然有很多的解析方法，具体可以查阅文档。代码如下：

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

url = 'http://www.jianshu.com'

res = requests.get(url)

ret = res.text

# print(type(ret))

soup = BeautifulSoup(ret,'html.parse')

print(soup.text)

需要注意的是：我的环境使用的Python3.5的版本，因此在打印输出的时候使用的是小括号，而在Python2.7的版本中打印时不需要使用小括号，还有使用BeautifulSoup解析字符串时，需要传入第二个参数，如果没有传入的话，会出现警告错误的，获得的数据如下：

解析完毕之后的数据

当然这只是获得了所有的数据，我们还可以具体的获得其中一小部分的数据，我们下次再进行说明。

weixin_39586353

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python beautifulsoup抓取网页内容_使用request和BeautifulSoup来爬取网页内容

目前可以基本上说是Python的天下，Python真的是非常火的一门编程语言，而且它非常的简单，以至于小学生都可以学会，那么作为已经成年的我，更应该学习这门编程语言了，下面我就将自己在学习Python爬虫时遇到的问题进行简单的总结：既然要使用Python爬取网站信息，那么我们就需要知道怎么使用Python才能爬取到我们需要的信息，这就牵扯到我们今天需要介绍的内容：requests库首先是安装req...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。