bs4中.string和.text 的区别

这篇博客详细探讨了BeautifulSoup库中字符串提取方法.string和.text的不同应用场景。在解析HTML时,.string返回单一文本内容,而.text会合并所有子节点的文本。当遇到多个文本节点时,.string返回空,.text则会将它们拼接。理解这两者之间的差异对于精准地抓取网页数据至关重要。
摘要由CSDN通过智能技术生成

这两种方法都是用来获取标签中的文本内容

分四种情况来区分:

1. 在指定标签td,没有子标签,且有文本时,两者的返回结果一致,都是文本

2. 在指定标签td,没有子标签,且没有文本时,.string返回None,.text返回为空

3. 在指定标签td,只有一个子标签时,且文本只出现在子标签之间时,两者返回结果一致,都返回子标签内的文本

4 .最关键的区别,在指定标签td,有子标签,并且父标签td和子标签p各自包含一段文本时,两者的返回结果,存在很大的差异

.string返回为空,因为文本数>=2,string不知道获取哪一个

.text返回的是,两段文本的拼接。

参考链接:bs4 string与text的区别 - 凯宾斯基 - 博客园

塞班学爬虫......

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值