Python爬虫：BeautifulSoup 中 string 和 text 的区别

最新推荐文章于 2024-08-04 08:26:03 发布

南淮北安

最新推荐文章于 2024-08-04 08:26:03 发布

阅读量7.4k

点赞数 27

分类专栏： Python 爬虫学习文章标签： Python爬虫：BeautifulSoup 中 string 和 t

本文链接：https://blog.csdn.net/nanhuaibeian/article/details/99958455

版权

Python 爬虫学习专栏收录该内容

58 篇文章 29 订阅

订阅专栏

初识 string 和 text 时感觉没什么区别，都是获得标签内的文本啊
然而在这次爬虫过程中发现并不是，他俩的区别还是挺大的

from bs4 import BeautifulSoup
# 实际网站的一段代码
html = """
<div class="bd">
<p class="">
    导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>
    1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
</p>
</div>
"""
soup = BeautifulSoup(html,'lxml')
result = soup.find(class_='bd').find('p')
print(result.string)
print(result.text)

在这里插入图片描述
结果很明显，这里用string 获取文本失败，用 text 却可以正常获得

具体的原因可以参考：丹枫无迹

我的理解它们俩的区别是：

对于就是标签内只有不含有其他标签子节点，那么这个 tag 可以使用 result.string 得到文本，也可以用 result.text 获得文本
如果 tag 包含了多个子节点，tag 就无法确定 result.string 方法应该调用哪个子节点的内容, result.string 的输出结果是 None

下面回到我测试的这段代码发现：
在这里插入图片描述 p 标签内里面还有一个 br 标签，为了验证现在把这个 br 标签删掉测试下：

from bs4 import BeautifulSoup
html = """
<div class="bd">
<p class="">
    导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...
    1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
</p>
</div>
"""
soup = BeautifulSoup(html,'lxml')
result = soup.find(class_='bd').find('p')
print(result.string)
print(result.text)