【class5】关于string和text的一些知识 and 示例

fmc121104

于 2024-04-05 12:03:06 发布

阅读量697

点赞数 22

文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fmc121104/article/details/137397312

版权

获取标签内容（使用string，提取em中的内容）

由于 find_all() 返回的是一个列表，我们不能直接调用 .string 属性。
我们需要使用 for 循环遍历列表，获取每一个节点字符串，再来调用 .string 属性获取节点中的标签里的内容。

# 使用import导入requests模块

import requests

# 从bs4中导入BeautifulSoup模块

from bs4 import BeautifulSoup

# 将URL地址赋值给变量url

url = "https://nocturne-spider.baicizhan.com/2020/08/07/1/"

# 将变量url传入requests.get()，赋值给response

response = requests.get(url)

# 将服务器响应内容转换为字符串形式，赋值给html

html = response.text

# 使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup

soup = BeautifulSoup(html, "lxml")

# 使用find_all()查询soup中em的节点，赋值给content_all

content_all = soup.find_all(name="em")

# for循环遍历content_all

for content in content_all:

# 获取每个节点中标签内的内容，赋值给contentString

contentString = content.string

# 使用print输出contentString

print(contentString)

PS：windows系统使用Ctrl+F

代码总结：

Import requests

From bs4 import BeautifulSoup

url=“http：//+地址+/”

response=request.get(url)//找到网页

html=response.text//转化字符串

soup=BeautifulSoup（http，“lxml”）//将HTML标准化

content_all=soup.find_all(name=”p”)

for content in content_all:

contentSoup=content.string//提取文字内容

print（contentSoup）

关于string的一些小知识

提取节点包含多个子节点时：
当定位的节点中同时包含了多个子节点时，示例中标黄的部分：有两个节点，一个节点是 em 标签内容，另一个节点是纯文字。
使用 .string 属性属性时，不清楚应该调用哪个节点的内容，会返回None值。

关于text的一些小知识

遇到节点中既包含其他节点，也有文字时，可以使用 .text 属性来提取内容。
.text 属性能直接提取该节点中的所有文字，并返回字符串格式。

使用 .text 属性来提取 p 节点中的所有的文字内容并输出。注意：这里的 .text 属性，用法是获取节点中的所有文字内容。
获取响应内容的 response.text 属性中的 .text 用于提取响应消息中的内容。

两段代码示例：

1.0

# 定义html

html = """

<p>

<em>夜曲编程</em>

这是一个段落

</p>"

# 从bs4中导入BeautifulSoup模块

from bs4 import BeautifulSoup

# 使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup

soup = BeautifulSoup(html, "lxml")

# 使用find_all()查询soup中p节点，赋值给content_all

content_all = soup.find_all(name="p")

# for循环遍历content_all

for content in content_all:

# 获取节点内的全部内容，赋值给contentString

contentString = content.text

# 使用print输出contentString

print(contentString)

2.0

# 使用import导入requests模块

import requests

# 从bs4中导入BeautifulSoup模块

from bs4 import BeautifulSoup

# 将URL地址赋值给变量url

url = "https://nocturne-spider.baicizhan.com/2020/08/08/%E5%9F%9F%E5%90%8D/"

# 将变量url传入requests.get()，赋值给response

response = requests.get(url)

# 将服务器响应内容转换为字符串形式，赋值给html

html = response.text

# 使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup

soup = BeautifulSoup(html, "lxml")

# 使用find_all()查询soup中h2节点，赋值给content_all

content_all = soup.find_all(name="h2")

# for循环遍历content_all

for content in content_all:

# 使用.string获取节点的内容，赋值给contentString

contentString = content.string

# 使用print输出contentString

print(contentString)

# 使用.text获取节点的内容，赋值给contentString

contentString = content.text

# 使用print输出contentString

print(contentString)

使用 find_all() 函数查找 <h2> 节点。for循环遍历列表，分别用 .string 属性和 .text 属性提取节点中的内容并输出。
使用.string 属性提取的内容为None。

第五天在夜曲的打卡

关注

22
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
【class5】关于string和text的一些知识 and 示例

使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup。时，示例中标黄的部分：有两个节点，一个节点是 em 标签内容，另一个节点是纯文字。使用BeautifulSoup()读取html，添加lxml解析器，赋值给soup。使用find_all()查询soup中em的节点，赋值给content_all。使用find_all()查询soup中h2节点，赋值给content_all。使用find_all()查询soup中p节点，赋值给content_all。
复制链接

扫一扫

fmc121104 CSDN认证博客专家 CSDN认证企业博客

码龄1年

30: 原创

112万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

1107: 积分

595: 粉丝

800: 获赞

14: 评论

431: 收藏

私信

关注

热门文章

最新评论

【class11】人工智能初步（人脸识别（1））
CSDN-Ada助手: 恭喜您发布第20篇博客！看到您探讨人工智能初步中的人脸识别话题，深感您的学习热情和勤奋。希望您能继续坚持创作，不断分享您的学习心得和见解。或许在下一篇博客中，可以深入探讨人脸识别技术的发展历程或者与其他领域的结合应用，这样不仅能够加深自己的理解，也能够为读者提供更加丰富的内容。期待您的下一篇精彩博客！祝您学习进步，创作愉快！
【class2】人工智能初步（自然语言处理）
fmc121104: 谢谢你的喜欢，大家一起进步
【class2】人工智能初步（自然语言处理）
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【class3】人工智能初步（词频统计）
CSDN-Ada助手: 恭喜您撰写了第12篇博客！看到您关于人工智能初步的词频统计文章，对于深入了解人工智能这一领域有很大帮助。建议您在接下来的创作中，可以尝试结合实际案例或者应用场景，更加生动地呈现人工智能的应用与发展，让读者更容易理解并产生共鸣。期待您更多优质内容的分享！
【class4】建立人工智能系统（1）
CSDN-Ada助手: 恭喜您发布了第13篇博客“【class4】建立人工智能系统（1）”！您的持续创作精神令人钦佩。在下一步的创作中，或许可以深入探讨人工智能系统的具体应用场景，或者分享一些实际操作经验，让读者更加深入了解这一领域。希望您能继续保持创作热情，期待您更多精彩的分享！祝您一切顺利！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。