bs4(beautifulsoup4)获取div部分文本内容（标签下的文本及子标签文本问题）

最新推荐文章于 2025-03-26 16:05:11 发布

没读过书的孩子

最新推荐文章于 2025-03-26 16:05:11 发布

阅读量2.2w

点赞数 13

分类专栏：爬虫文章标签：爬虫 bs4

本文链接：https://blog.csdn.net/qq_38278799/article/details/104263867

版权

爬虫专栏收录该内容

4 篇文章

订阅专栏

一.问题

如何提取以下文本中的“开车之后…踩了刹车”

<div class="zh-summary summary clearfix">
如何提取以下文本中的“开车之后.......踩了刹车”
开车之后明白了一个道理：你能横穿马路跑过去，不是因为你跑得快，而是过来的车都踩了刹车。

<a href="/question/38627388/answer/124188978" class="toggle-expand">显示全部</a>
</div>

使用get_text()或者是.text同时取出了div标签下的文本及子标签文本，所以不太适用。

二.解决

soup = BeautifulSoup(page, "lxml")
content = soup.find("div", class_="zh-summary").contents[0]

不同问题不同对待，此问题中，简单的方法是通过contents[0]的方式取出第一元素即第一段文本。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

没读过书的孩子

关注关注

13
点赞
踩
31

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

python之BeautifulSoup根据属性来获取某个标签下内容

我不是码农的博客~~~

02-12

578

【代码】python之BeautifulSoup根据属性来获取某个标签下内容。

python中beautifulsoup怎么输出文本内容_网页内容爬取：如何提取正文内容 BEAUTIFULSOUP的输出...

weixin_35871890的博客

12-24

2138

创建一个新网站，一开始没有内容，通常需要抓取其他人的网页内容，一般的操作步骤如下：根据url下载网页内容，针对每个网页的html结构特征，利用正则表达式，或者其他的方式，做文本解析，提取出想要的正文。为每个网页写特征分析这个还是太耗费开发的时间，我的思路是这样的。Python的BeautifulSoup包大家都知道吧，import BeautifulSoupsoup = BeautifulSoup...

5 条评论您还未登录，请先登录后发表或查看评论

【Python BS4】Beautiful Soup4的使用说明

HR的博客

03-22

1170

XPath的使用点击跳转使用Beautiful Soup4从HTML源代码中提取有用的信息简介语法讲解find和find_allselect练习简介 BeautifulSoup4（BS4）是Python的一个第三方库，用来从HTML和XML中提取数据。 BeautifulSoup4在某些方面比XPath易懂，但是不如XPath简洁，而且由于它是使用Python开发的，因此速度比XPath慢。使用pip命令安装:pip install beautifulsoup4 安装后，切换到Python的交互.

python3用BeautifulSoup抓取div标签

weixin_33979203的博客

11-13

1591

# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urllib.request import re #如果是网址，可以用这个办法来读取网页 #html_doc = "http://tieba...

如何使用 Python (BeautifulSoup) 采集网页上的文本

最新发布

D0126_的博客

03-26

108

一位用户想要使用 Python 和 Beautifulsoup 来采集网页上的文本，但目前还没有成功。用户提供了部分网页源代码作为参考，但未能成功获取文本内容。

python提取html的div属性,使用BeautifulSoup提取html div类

weixin_29943753的博客

06-04

1284

我想从下面的HTML中获取“8.0”： ==$0"8.0" /10::after我尝试了下面的代码来提取div class='js otelpuani'中的'8.0'，但它似乎不起作用import urllibimport requestsfrom bs4 import BeautifulSoupimport pyodbcheaders = {"user-agent": "Mozilla/5.0 ...

BeautifulSoup 获取 a标签里的文本内容

无梦生7的博客

04-04

1万+

说明想要获取 a标签里的单词如下所示。代码 from bs4 import BeautifulSoup f = open("word.txt", "r") # 设置文件对象 html = f.read() # 将txt文件的所有内容读入到字符串html中 soup = BeautifulSoup(html, 'lxml') # 获取a标签里的文本内容 for item in sou...

BeautifulSoup获取指定class样式的div

aaa2549769750的博客

03-23

4034

如何获取指定的标签的内容是解析网页爬取数据的必要手段，比如想获取<div class='xxx'> ...<div>这样的div标签，通常有三种办法， 1）用字符串查找方法,然后切分字符串（或切片操作），如str.index(patternStr)或str.find(patternStr)，这种方法快，但步骤多，因为要去头去尾。 2）用正则表达式，比如'&lt...

python提取p标签的文本,Python3.5 BeautifulSoup4从div中的'p'获取文本

weixin_34336068的博客

12-16

1154

I am trying to pull all the text from the div class 'caselawcontent searchable-content'. This code just prints the HTML without the text from the web page. What am I missing to get the text?import req...

python获取div下所有p标签的文本内容

04-04

可以使用beautifulsoup库来获取div下所有p标签的文本内容。示例代码如下： ```python from bs4 import BeautifulSoup html = """ <div> 这是第一个p标签这是第二个p标签这是第三个p标签 </div> """ soup = ...

scrapy获取html标签文本,如何使用Scrapy从网站上获取所有纯文本？

weixin_39633134的博客

06-07

905

小编典典最简单的选择是to 并且找到所有内容：extract //body//text()join''.join(sel.select("//body//text()").extract()).strip()这里sel是一个Selector实例。另一种选择是使用nltk的clean_html()：>>> import nltk>>> html = """... ...

BeautifulSoup只获取当前节点的text，而不包含子节点text

iMatt的专栏

02-16

1998

例如: <div> hello <a> world</a> </div> 希望只返回hello. 做法:查找时,text参数为True. print(soup.find("div",text=True).get_text());

BeauttifulSoup 在获取文本的时候如何不获取子节点的文本

lupe_c的博客

11-12

300

使用select方法时会获取到后续子节点的所有文本，之前解决的办法时使用lxml库进行提取，很麻烦，终于找到了一个方法：.contents[0]

BeautifulSoup4 提取数据爬虫用法详解

何必说

07-25

8789

Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于 HTML DOM 的，会载入整个文档，解析整个 DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python 标准库中的HTML解析器，也支持 lxml 的 XML解...

数据解析——bs4解析

xiaofan

08-15

989

文章目录1. 环境安装1.1 打开系统打开cmd指令输入 pip install bs41.2 出现 Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None) 的解决方案2. 相关方法2.1 比如筛选一个标签如：\ 下的相关方法3. 进行实战（获取一个代理ip网的相关信息）3.1 分析目标在哪个标签3.2 分析可知其在div标签3.3 最后进行目标内容的提取小结： 1. 环境安装 1.1 打开系统打开cmd

爬虫之 BeautifulSoup4 基础教程