02 解析和提取网页中的数据

最新推荐文章于 2024-05-12 18:04:11 发布

c可

最新推荐文章于 2024-05-12 18:04:11 发布

阅读量845

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/qq_38967187/article/details/104867232

版权

python 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

使用BeautifulSoup解析和提取网页中的数据

BeautifulSoup解析数据的用法:
bs对象 = BeautifulSoup(要解析的文本,'解析器')
在括号中，要输入两个参数，第0个参数是要被解析的文本，它必须是字符串
括号中的第1个参数用来标识解析器：html.parser（并不唯一）



提取数据
仍然使用BeautifulSoup来提取数据。
这一步，又可以分为两部分知识：find()与find_all()，以及Tag对象（标签对象）。

find()与find_all()是BeautifulSoup对象的两个方法，
它们可以匹配html的标签和属性，把BeautifulSoup对象里符合要求的数据都提取出来。
find()只提取首个满足要求的数据。
find()方法将代码从上往下找，找到符合条件的第一个数据，不管后面还有没有满足条件的其他数据，停止寻找，立即返回。
而find_all()顾名思义（find all：查找全部），提取出的是所有满足要求的数据。
代码从上往下找，一直到代码的最后，把所有符合条件的数据揣好，一起打包返回。

知识点：

'''
find()与find_all()的用法：

find()，用于提取满足要求的首个数据，BeautifulSoup对象.find(标签,属性)
示例：soup.find('div',class_='books')

find_all()，提取满足要求的所有数据，BeautifulSoup对象.find_all(标签,属性)
示例：soup.find_all('div',class_='books')
'''


'''Tag对象的三种常用属性与方法
Tag.find()和Tag.find_all()，提取Tag中的Tag
Tag.text，提取Tag中的文字
Tag['属性名']，输入参数：属性名，可以提取Tag中这个属性的值
'''


#除了我们拿到的数据之外；运行结果的数据类型，又是三个<class 'bs4.element.Tag'>，
#用find()提取出来的数据类型和刚才一样，还是Tag对象。接下来要做的，就是把Tag对象中的文本内容提出来。
#这时，可以用到Tag对象的另外两种属性——Tag.text（获得标签中的值），和Tag['属性名']（获得属性值）。

#我们用Tag.text提出Tag对象中的文字，用Tag['href']提取出URL。

练习题：

你需要爬取的是名言网中的名言并且打印。

文章URL:http://quotes.toscrape.com
首先，记得调用requests库和BeautifulSoup模块
然后，按照爬虫的步骤来写代码：
第1步：获取数据  requests.get()
第2步：解析数据  BeautifulSoup(网页源代码的字符串格式,'html.parser')
...
...

'''

实例代码如下：

import requests
from bs4 import BeautifulSoup
res = requests.get('http://quotes.toscrape.com')
print(res.status_code)
soup = BeautifulSoup(res.text,'html.parser')
items = soup.find_all(class_='text')
for item in items:
    print(item.text)

c可

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
02 解析和提取网页中的数据

使用BeautifulSoup解析和提取网页中的数据'''BeautifulSoup解析数据的用法：bs对象 = BeautifulSoup(要解析的文本,'解析器')在括号中，要输入两个参数，第0个参数是要被解析的文本，它必须是字符串括号中的第1个参数用来标识解析器：html.parser（并不唯一）'''...
复制链接

扫一扫

专栏目录