BeautifulSoup4 模块中文文档学习记录

简介

BeautifulSoup 是一个可以从 HTML 和 XML 文件中提取数据的 Python 库。
它可以通过你最喜欢的解析器实现遍历、查找和修改网页数据的功能,可以节省大量时间。

安装

安装 BeautifulSoup :

pip install bs4

注意:安装完之后需要重启 VScode 才可以正常导入。

安装解析器:

在这里插入代码片

基本用法

html_doc = """<html><head><title>睡鼠的故事</title></head>
<body>
<p class="title"><b>睡鼠的故事</b></p>
<p class="story">从前有三位小姐姐,她们的名字是:
<a href="http://example.com/elsie" class="sister" id="link1">埃尔西</a><a href="http://example.com/lacie" class="sister" id="link2">莱斯</a><a href="http://example.com/tillie" class="sister" id="link3">蒂尔莉</a>;
她们住在一个井底下面。</p>
<p class="story">...</p>"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, "html.parser")
print(soup.prettify())

将按照文档的嵌套结构输出。

遍历结构化数据的常用方法

>>> soup.title
<title>睡鼠的故事</title>
 
>>> soup.title.name
'title'
 
>>> soup.title.string
'睡鼠的故事'
 
>>> soup.title.parent.name
'head'
 
>>> soup.p
<p class="title"><b>睡鼠的故事</b></p>
 
>>> soup.p['class']
['title']
 
>>> soup.a
<a class="sister" href="http://example.com/elsie" id="link1">埃尔西</a>
 
>>> soup.find_all('a')
[<a class="sister" href="http://example.com/elsie" id="link1">埃尔西</a>, <a class="sister" href="http://example.com/lacie" id="link2">莱斯</a>, <a class="sister" href="http://example.com/tillie" id="link3">蒂尔莉</a>]
 
>>> soup.find(id='link3')
<a class="sister" href="http://example.com/tillie" id="link3">蒂尔莉</a>

从文档中找到所有 标签的链接:

>>> for link in soup.find_all('a'):
        print(link.get('href'))
        
http://example.com/elsie
http://example.com/lacie
http://example.com/tillie

从文档中获取所有的文本:

>>> print(soup.get_text())
 
睡鼠的故事
 
睡鼠的故事
从前有三位小姐姐,她们的名字是:
埃尔西,
莱斯和
蒂尔莉;
她们住在一个井底下面。
...

更多详细用法参见官网

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码搬运媛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值