解决使用bs4爬取标签文本时，标签内部标签也有文本，怎么精确获取想要的部分/Python中bs4如何提取嵌套标签中的某段文本？

昔舍

于 2024-03-31 10:11:18 发布

阅读量217

点赞数 1

文章标签： python 爬虫 beautifulsoup

本文链接：https://blog.csdn.net/m0_74455866/article/details/137193703

版权

在使用bs4获取a标签的文本时，a标签中有一个span标签也有文本，怎么在获取时不获取span标签的文本内容

<a href="http://www.song.com/" title="赵匡胤" target="_self">
			<span>this is span</span>
		宋朝是最强大的王朝，不是军队的强大，而是经济很强大，国民都很有钱</a>

解决方法：

# 使用切片和清除分隔符获取精确文本
print(soup.find('a').get_text().replace('\n',' ').replace('\t','').split(" ")[-1])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

昔舍

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

使用BeautifulSoup爬取想要的标签（《python网络爬虫权威指南》笔记）

12-21

正则表达式在BeautifulSoup中也有应用，可以用来匹配和筛选标签属性的值。例如，如果我们要找出所有id属性以`title`开头的标签，可以这样做： ```python import re title_tags = bs.find_all(id=re.compile("^...

15 bs对象.节点名称.节点名称.string 获取嵌套节点内容

weixin_63986098的博客

06-25

199

# bs对象.节点名称..节点名称string获取节点内容 print("获取子节点title的内容:") print(bs_duixiang.head.title.string,'\n') print("获取子节点title的内容的数据类型:") print(type(bs_duixiang.head.title.string))

参与评论您还未登录，请先登录后发表或查看评论

爬虫基础-bs4方式和xpath方式提取标签下所有文本

wangshui898的专栏

08-15

1182

bs4方式 url = 'http://www.bequgew.com/51561/18969923.html' response = requests.get(url=url,headers=headers) response.encoding = 'gbk' # bs4方式 soup = BeautifulSoup(response.text, 'lxml') content = soup.find('div', id='book_text').text xpath方式 url = '..

[爬虫]4.数据解析及应用之 bs4【爬取一部小说的文本】

雾狼的游戏屋

10-21

5212

解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储，列如图片在标签中，列表数据在标签中bs4数据解析的原理;1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取。

python爬虫用bs4获取标签中间的文本内容以及标签里的属性

热门推荐

weixin_45774350的博客

10-05

3万+

在爬取网页的时候，用bs4库爬取网页上想要的一块标签，但是却不知道怎么提取里面的内容，或者不知道怎么得到标签里面的各种属性值，比如a标签的href属性的值，这里有几种方法：使用get_text()或者是.text同时取出了div标签下的文本及子标签文本。实例如图： detials=dl.select('p')[0].text print(detials) 运行结果如图：可以看到后面的【详细】是在p标签下的子标签里面的内容如果已经拿到了最里层的标签的话，可以直接用.string的方

使用bs4爬取《孙子兵法》（处理string属性遇见＜br＞标签时提取为空）

m0_51971702的博客

09-24

662

越来越刑了

Python网络爬虫：使用BeautifulSoup精确抓取标签

"这篇资源是关于使用Python的BeautifulSoup库进行网页爬取的教程，主要讲解如何通过BeautifulSoup精准地选择和提取HTML标签，以及利用find()和find_all()方法，正则表达式，以及Lambda表达式来处理标签及其属性。...

python 爬取数据 requests bs4

10-18

Python 爬取数据主要使用到的两个库是requests和BeautifulSoup(bs4)。requests库负责发送请求获取网页内容，而BeautifulSoup库则用于解析网页数据。首先，我们需要使用requests库发送GET请求来获取网页的内容。...

python爬虫-bs4详解--小林月

qq_53953480的博客

04-02

648

bs4进行数据解析。

5.bs4的基本使用

potato123232的博客

09-05

1031

与find()的用法相同。

bs4的基本使用

最新发布

qq_48082548的博客

03-23

330

第二个参数可以是class_ 和 id。find_all是可以获取全部。

Python爬虫 - Beautiful Soup 4.2.0（bs4）

⚡

03-02

2882

【Beautiful Soup 4.2.0官方中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/】 bs4简单介绍 BeautifulSoup的导入、使用及解释 Tag对象的string属性和text属性 strip()、lstrip()、rstrip()清洗数据 bs4简单介绍上一篇爬虫文章使用了正则表达...

bs4 怎样获取两个标签间内容

Im_Baby_Bird的博客

10-01

6084

爬取<a>文本</a>的时候，遇到了下面这种情况实践证明，用a.next_element可以避免将<span>的内容也爬下来如果用a.get_text()或者a.text或者a.innerHTML或者a.innerText,都会把<span>的信息也一并截取出来 ...

Python之BS4

dzh1125641239的博客

10-18

390

1.BS4的理解 # BS4会将html文档对象转换为python可以识别的四种对象: Tag: 标签对象 NavigableString : 字符内容操作对象 BeautifulSoup: 文档对象 Comment: 文档中注释节点的内容获取标签内容和属性 # 1. 获取标签内容 from bs4 import BeautifulSoup # 构造对象 s...

Python网络爬虫——BeautifulSoup4库的使用

qq_38082146的博客

12-08

349

使用requests库获取html页面并将其转换成字符串之后，需要进一步解析html页面格式，提取有用信息。 BeautifulSoup4库，也被成为bs4库（后皆采用简写）用于解析和处理html和xml。 1.调用 bs4库中最主要的便是bs类了，每个实例化的对象都相当于一个html页面需要采用from-import导入bs类，同时通过BeautifulSoup（）创建一个bs对象 ...

爬虫-bs4的使用

芊樱烛渊的博客

05-16

1242

beautifulsoup4是Python数据包中专门用于数据解析的数据包，它能够匹配网页原码中的标签页，从而从网页中获得我们想要的数据，本章节我们来讲述bs4的一些简单的使用，以及如何使用bs4爬取网页上的小说。一.find方法的使用 #首先我们打开一个text.html文档，打开的模式为只读模式，其编码为utf-8 fp=open('./text.html','r',encoding='utf-8') #使用我们的BeautifulSoup函数将我们的文本进行处理。 soup=Beaut

BeautifulSoup如何解析获取标签内的文本信息

、Lu的博客

06-28

2万+

BeautifulSoup获取标签内的文本信息通常有以下几种方式： 1. string：获取某个标签下的非标签字符串，返回的是一个字符串。 2. strings：获取某个标签下的子孙非标签字符串，返回的是一个生成器。 3. stripped_strings：获取某个标签下的子孙非标签字符串，会去掉空白字符，返回的是一个生成器。 4. get_text：获取某个标签下的子孙非标签字符串，返回的是普通字符串。 ...