Python 操作BeautifulSoup4(爬取网页信息)


活动地址:CSDN21天学习挑战赛

Python 操作BeautifulSoup4(爬取网页信息)

1.BeautifulSoup4 介绍

BeautifulSoup4是爬虫里面需要掌握的一个必备库,通过这个库,将使我们通过requests请求的页面解析变得简单无比,再也不用通过绞尽脑汁的去想如何正则该如何匹配内容了。(一入正则深似海虽然它使用起来效率很高效哈)

这篇文档介绍了BeautifulSoup4中基础操作,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要的效果

1.1 BeautifulSoup4 是什么

Beautifulsoup4 是 Beautiful Soup 项目的第四个版本,也是当前的最新版本。

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

Beautiful Soup 对 Python 2 的支持已于 2020 年 12 月 31 日停止:从现在开始,新的 Beautiful Soup 开发将专门针对 Python 3。Beautiful Soup 4 支持 Python 2 的最终版本是 4.9.3。

HTML 文档本身是结构化的文本,有一定的规则,通过它的结构可以简化信息提取。于是,就有了lxml、pyquery、BeautifulSoup等网页信息提取库。一般我们会用这些库来提取网页信息。其中,lxml 有很高的解析效率,支持 xPath 语法(一种可以在 HTML 中查找信息的规则语法);pyquery 得名于 jQuery(知名的前端 js 库),可以用类似 jQuery 的语法解析网页。但我们今天要说的,是剩下的这个:BeautifulSoup。

BeautifulSoup(下文简称 bs)翻译成中文就是“美丽的汤”,这个奇特的名字来源于《爱丽丝梦游仙境》(这也是为何在其官网会配上奇怪的插图,以及用《爱丽丝》的片段作为测试文本)。

1.2 使用之前对:数据结构中–‘树’的理解 回顾

简单回顾一下数据结构中关于树的基本知识,脑海中有个树的样子哈

在这里插入图片描述

结点的概念

结点:上面的示意图中每一个数据元素都被称为"结点"。

结点的度:结点所拥有的子树的个数称为该结点的度。 上图中A节点的子树的数量就是三个,它的度就是3。

根结点:每一个非空树都有且只有一个被称为根的结点。 上图中里面的A就是当前树的根节点。

子结点、父结点、兄弟结点:树中一个结点的子树的根结点称为这个结点的子结点,这个结点称为孩子结点的父结点。具有同一个父结点的子结点互称为兄弟结点。 上图中B、C、D就是兄弟节点,同时也是A的孩子节点,C是G双亲节点

叶子结点:度为0的结点称为叶子结点,或者称为终端结点。 上图中的K、M就是叶子节点的代表

<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <link rel="stylesheet" type="text/css" href="style.css">
        <script type="application/javascript" src="script.js"></script>
        <title>I’m the title</title>
    </head>
    <body>
        <h1>HelloWorld</h1>
        <div>
            <div>
                <p>picture:</p>
                <img src="example.png"/>
            </div>
            <div>
                <p>A paragraph of explanatory text...</p>
            </div>
        </div>
    </body>
</html>

上面的HTML源码通过HTML文档解析构建DOM树就会形成如下的效果

在这里插入图片描述

2.安装BeautifulSoup4模块库

# 安装BeautifulSoup4
pip install BeautifulSoup4

在这里插入图片描述

基本使用流程通过文本初始化 bs 对象->通过 find/find_all 或其他方法检测信息->输出或保存

官方文档很友好,也有中文,推荐阅读 :

官方中文版说明

下表列出了主要的解析器,以及它们的优缺点:

在这里插入图片描述

2.1 案例基础操作

下面的一段HTML代码将作为例子练习

html_doc = """
<html>
<head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
    and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

分析

在这里插入图片描述

2.2 完整代码练习

# 导包
from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
# 创建对象html_doc((使用BeautifulSoup解析这段代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出:))
soup = BeautifulSoup(html_doc, 'html.parser')

# 按照html标准的缩进格式的结构输出:
print(soup.prettify())

# 1 获取title标签的所有内容
print("1.获取title标签的所有内容:", soup.title)

# 2 获取title标签的名称
print("2.获取title标签的名称:", soup.title.name)

# 3 获取title标签的文本内容
print("3.获取title标签的文本内容:", soup.title.string)

# 4 获取head标签的所有内容
print("4.获取head标签的所有内容:", soup.head)

# 5 获取第一个p标签中的所有内容
print("5.获取第一个p标签中的所有内容:", soup.p)

# 6 获取第一个p标签的class的值
print("6.获取第一个p标签的class的值:", soup.p["class"])

# 7 获取第一个a标签中的所有内容
print("7.获取第一个a标签中的所有内容:", soup.a)

# 8 获取所有的a标签中的所有内容
print("8.获取所有的a标签中的所有内容", soup.find_all("a"))

# 9 获取id="link2"
print("9.获取id=link2", soup.find(id="link2"))
#
# 10 获取所有的a标签,并遍历打印a标签中的href的值
for item in soup.find_all("a"):
    print(item.get("href"))

# 11 获取所有的a标签,并遍历打印a标签的文本值
for item in soup.find_all("a"):
    print(item.get_text())
输出结果:
"D:\Program Files1\Python\python.exe" D:/Pycharm-work/pythonTest/打卡/0818-BeautifulSoup4.py
<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>
1.获取title标签的所有内容: <title>The Dormouse's story</title>
2.获取title标签的名称: title
3.获取title标签的文本内容: The Dormouse's story
4.获取head标签的所有内容: <head><title>The Dormouse's story</title></head>
5.获取第一个p标签中的所有内容: <p class="title"><b>The Dormouse's story</b></p>
6.获取第一个p标签的class的值: ['title']
7.获取第一个a标签中的所有内容: <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
8.获取所有的a标签中的所有内容 [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
9.获取id=link2 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
http://example.com/elsie
http://example.com/lacie
http://example.com/tillie
Elsie
Lacie
Tillie

Process finished with exit code 0

以上就是 BeautifulSoup 的一个极简上手介绍,对于 bs 能做什么,想必你已有了一个初步认识。如果你要在开发中使用,建议再看下它的官方文档(中文版)(英文版)。文档写得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代码中派上用场了

### 回答1: 首先你需要安装BeautifulSoup库,然后导入它。 ```python from bs4 import BeautifulSoup ``` 然后你需要使用`BeautifulSoup`解析HTML或XML文档,例如: ```python soup = BeautifulSoup(html_doc, 'html.parser') ``` 接下来,你可以使用`find`或`find_all`方法来查找文档中的`span`标签。例如,如果你想找到所有的`span`标签: ```python spans = soup.find_all('span') ``` 如果你想找到第一个`span`标签: ```python span = soup.find('span') ``` 你可以通过遍历`spans`列表来访问每个`span`标签,例如: ```python for span in spans: print(span) ``` 你也可以使用属性来查找具有特定属性的`span`标签,例如: ```python spans = soup.find_all('span', attrs={'class': 'foo'}) ``` 这将找到所有具有`class`属性值为`foo`的`span`标签。 你也可以使用CSS选择器来查找元素,例如: ```python spans = soup.select('span.foo') ``` 这将找到所有具有`class`属性值为`foo`的`span`标签。 希望这对你有帮助! ### 回答2: 要使用PythonBeautifulSoup库爬取<span>标签,可以按照以下步骤进行操作: 首先,需要安装BeautifulSoup库。可以通过在终端中运行以下命令进行安装: ``` pip install beautifulsoup4 ``` 在Python脚本中,需要导入BeautifulSoup库和请求库(如requests): ```python from bs4 import BeautifulSoup import requests ``` 接下来,发送一个请求并获取网页的内容。可以使用requests库的get()方法发送对网页的请求: ```python url = 'https://example.com' # 替换成你要爬取的网页链接 response = requests.get(url) content = response.content ``` 然后,创建一个BeautifulSoup对象来解析网页内容。将获取到的content作为参数传递给BeautifulSoup的构造函数: ```python soup = BeautifulSoup(content, 'html.parser') ``` 现在,你可以使用BeautifulSoup对象的find_all()方法找到所有的<span>标签: ```python span_tags = soup.find_all('span') ``` 上述代码将返回一个包含所有<span>标签的列表。你可以遍历这个列表,并提取你需要的数据。 例如,你可以打印出所有<span>标签的文本内容: ```python for span in span_tags: print(span.text) ``` 以上代码将打印出每个<span>标签的文本内容。 以上就是使用PythonBeautifulSoup库爬取<span>标签的基本步骤。根据所爬取的网页的具体结构和需要提取的数据,你可能需要进一步的调整和处理。 ### 回答3: 使用BeautifulSoup库来爬取网页中的<span>标签可以通过以下步骤实现: 1. 导入所需的库: ```python from bs4 import BeautifulSoup import requests ``` 2. 使用requests库发送HTTP请求来获取网页内容: ```python response = requests.get(url) # 发送请求并获取网页内容 html_content = response.text # 获取网页的文本内容 ``` 3. 使用BeautifulSoup解析网页内容: ```python soup = BeautifulSoup(html_content, 'html.parser') ``` 注意,这里的'html.parser'是指定BeautifulSoup使用的解析器,可以根据实际情况选择合适的解析器。 4. 使用select或find_all方法找到所有的<span>标签: ```python spans = soup.select('span') # 使用CSS选择器选择所有的<span>标签 # 或者 spans = soup.find_all('span') # 使用标签名称直接选择所有的<span>标签 ``` 5. 遍历获取到的<span>标签进行进一步处理: ```python for span in spans: print(span.text) # 打印<span>标签中的文本内容 ``` 这样就可以通过BeautifulSoup库来爬取网页中的<span>标签了。根据实际需要,可以进一步处理或提取<span>标签中的其他信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

度假的小鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值