Python——获取标签内部所有文本的方式

最新推荐文章于 2024-07-21 21:39:32 发布

莫悔

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量8.8k

点赞数 3

分类专栏： Python 文章标签： Python

本文链接：https://blog.csdn.net/ljj950408/article/details/81411725

版权

本文介绍了Python中获取HTML标签内部所有文本的四种方法：遍历子标签、正则去除标签、使用/text()和xpath('string(.)')。通过实例代码展示了如何实现这些方法。

摘要由CSDN通过智能技术生成

获取标签内部全部文本的几种方式：（1）获取最外面的标签，遍历内部的所有子标签并获取标签文本；

（2）用正则去掉所有标签；

（3）/text()获取标签的文本，//text()获取标签以及子标签的文本；

（4）使用xpath('string(.)')这种方式获取所有文本并且拼接。

以一个网站为例：

初始代码：

import scrapy
import re
 
class XiaoshuoSpider(scrapy.Spider):
    name = 'xiaoshuo'
    allowed_domains = ['tieba.baidu.com']
    start_urls = ['https://tieba.baidu.com/p/4685013359']
 
    def parse(self, response):

以下几种操作方式与初始代码相连获取文本：

1.获取最外面的标签，遍历内部所有的子标签，获取标签文本。代码如下：

# 首先我们先获取包裹所有内容的标签，在此基础上进

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

莫悔

关注关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python 实现二叉树前序，中序，后序，零基础也能看得懂

m0_67621628的博客

03-17

809

self.element = element self.l_child = l_child self.r_child = r_child class Tree(object): “”“树类”"" def init(self): self.root = Node() self.queue = [] def add_node(self, element): “”“为树添加节点”"" node = Node(element) 如果树是空的，则对根节点赋值 if self.root.element == -1: s

使用python xpath爬虫引号数据处理/标签文本获取方式

yida7942的博客

08-05

998

针对部分无法获取数据，在xpath语句中使用“descendant-or-self::text()”，即可获取同级及下级的信息个人常用xpath爬虫格式： import requests from lxml import etree from fake_useragent import UserAgent import urllib from xlrd import open_workbook from xlutils.copy import copy #设置headers ua = UserAgent

参与评论您还未登录，请先登录后发表或查看评论

第二篇：获取标签文本内容

Heartset的博客

10-05

463

3.list_2_element = selector.xpath('//li[@class="line-message"]/a/text()')[1]：这行代码使用XPath表达式从文档中选择具有 class 属性值为 "line-message" 的所有 <li> 元素下的 <a> 元素的文本内容，并将索引为 1 的元素的文本内容存储在变量 list_2_element 中。它的作用是显示被选中的具有 "line-message" 类的 <li> 元素下的第二个 <a> 元素的文本内容。

Python爬虫（3） --爬取网页文本

热门推荐

qq_35866413的博客

08-06

9万+

前文提到了Python爬虫框架之一的——Scrapy框架安装和相关命令的简单使用,熟悉了起码的实用流程。今天我们进行一些细节上的总结。如题，在我们要获取目标文本所在的标签时，通常有几种方法，下面我们挨个举例说明各种用法的使用：以百度贴吧小说吧中的一篇小说为例,我们开始进行爬虫举例,该小说链接为:https://tieba.baidu.com/p/5702862812?pn=1 ...

Python 获取网页标签中的全部文本的几种方法

qq_42603652的博客

08-04

2万+

上一篇文章讲述了一下scrapy框架的安装与简单使用，今天呢，就基于scrapy框架来给大家讲述一下如何获取网页标签中的全部文本。首先创建一个scrapy框架项目，至于如何创建，不知道的小伙伴们请看我的上一篇文章。目标是百度贴吧，目标网址：https://tieba.baidu.com/p/4685013359 要求是获取发的帖子，当然只要文本。打开爬虫文件，开始爬取内容 # -...

Python获取标签

qq_51241339的博客

02-23

654

python获取训练集和测试集标签

Python爬虫——BeautifulSoup，获取HTML中文档，标签等内容

Rain778的博客

09-24

7251

BeautifulSoup，获取HTML中文档，标签等内容

python获取窗口控件属性_Python——tkinter窗口视窗的功能部件

weixin_39849287的博客

11-28

888

tkinter简介Tkinter 是使用 python 进行窗口视窗设计的模块。Tkinter模块(“Tk 接口”)是Python的标准Tk GUI工具包的接口。作为 python 特定的GUI界面，是一个图像的窗口，tkinter是python 自带的，可以编辑的GUI界面，我们可以用GUI 实现很多直观的功能，比如想开发一个计算器，如果只是一个程序输入，输出窗口的话，是没用用户体验的。所有开发...

Word版，Python GUI设计——Tkinter菜鸟编程（上、中、下）

04-14

- **创建标签**: `Label(root, text="标签文本")` - **配置属性**: - **颜色**: `bg`、`fg` - **字体**: `font` - **对齐方式**: `anchor` - **换行**: `wraplength` - **边框样式**: `relief` - **填充**: `...

Python 获取div标签中的文字实例

09-19

今天小编就为大家分享一篇Python 获取div标签中的文字实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python读取html table_【转】Python——读取html的table内容

weixin_39926540的博客

12-02

790

# -*- coding: utf-8 -*-from lxml.html import parsefrom urllib.request import urlopenimport pandas as pd# 可能爬的这个网页比较特殊，需要写下面两句话import sslssl._create_default_https_context = ssl._create_unverified_conte...

获取标签内部全部文本的几种方式

qq_42543254的博客

08-04

4201

运用scrapy框架爬取所需要的内容。我在百度贴吧中找了一篇小说，我来只爬取楼主的文本信息。下面为初始代码。 import scrapy import re class XiaoshuoSpider(scrapy.Spider): name = 'xiaoshuo' allowed_domains = ['tieba.baidu.com'] start_urls ...

怎样获取标签的文本内容

2302_76922601的博客

10-05

201

通过class属性定位查找出html中｛li｝第三个｛li｝标签属性。通过href属性定位查找出html中｛li｝第四个｛li｝标签属性。比如说｛li｝中第一个｛li｝标签下的a元素文本信息。查找出html内容中想找的文本信息。删除左右换行符使用空格替换/n。使用etree解析html内容。提取出所有ul下的文本信息。

python获取标签内容,在Python中的两个标签之间获取数据

weixin_42181693的博客

11-30

689

Granular computing baseddataminingin the views of rough set and fuzzy setUsing Python I want to get the values from the anchor tag which should be Granular computing based data mining in the views of ...

python xml提取多重标签内容

pywin

01-06

9434

所用文件地址：链接: https://pan.baidu.com/s/1slqQRvv 密码: 3ce1 最近用xml.etree.ElementTree包做了一个药物重定位的xml文件提取，这种xml文件不同于一般的xml文件，各级标签不同于ElementTree官方文档https://docs.python.org/2/library/xml.etree.elementtree.html所给

利用python摘取文本中所需信息，并保存为txt格式

qq_15139921的博客

11-20

3466

** 项目所需 ** IC设计中难免会处理大量文本信息，我就在项目中遇到了，对于一个几万行的解码模块，提取出其中的指令，如果不用脚本将会很麻烦，下面我将一个小小的例子分享给大家，刚学python，如果有更方便的实现方法清多多指教。目的 1、在几万行解码模块的代码中提取出指令 2、将指令保存在一个txt文档中，要求逐行显示代码 import re TXTtemp = open("test.txt...

Python利用selenium+Beautifulsoup破解动态class/id并提取相应文本的方法

小白的编码屋

04-28

1730

最近小白掌柜接了领导一项任务，要全程自动化的注册一个网站并登录网站后逗留一段时间再离开，起初觉得这个应该难度不会太大，就欣然接受了。谁知，拿到具体需求后一分析纳尼？？这个里面其实有好多难点，but本着我就是进阶的小白还是决定挑战下去！今天先不说其他的难点，只说关于如何提取动态class/id里面的文本（就是注册后网站一般都会给邮箱发一个验证码，要提取的就是它）的问题！！！进入正题，因为项目领导给...

《Python编程：从入门到实践》——简明教程

书中的"最初的步骤"章节可能会引导读者如何安装Python环境，如何使用Python解释器进行交互式编程，选择合适的文本编辑器，编写和运行源代码文件，以及如何获取编程帮助。总而言之，这些资源为学习Python编程和理解...