html li标签中的dr,HTML XPath：提取混合了多个标签的文本？

最新推荐文章于 2022-11-11 19:34:52 发布

weixin_39947812

最新推荐文章于 2022-11-11 19:34:52 发布

阅读量252

点赞数

文章标签： html li标签中的dr

目标：从特定元素(例如li)中提取文本，同时忽略各种混合标签，即展平第一级子元素并简单地分别返回每个展平子元素的拼接文本。HTML XPath：提取混合了多个标签的文本？

例子：

CIA

Central Intelligence Agency.
Culinary Institute of America.

所需的文本：

中央情报局

美国

的烹饪学院除了周围的锚标记防止简单的检索。

要单独返回每个L1标签，我们使用简单：

//div[contains(@id,"mw-content-text")]/ol/li

但也包括围绕锚标签等，并

//div[contains(@id,"mw-content-text")]/ol/li/text()

只返回文本元素是直接的孩子李，即'中央'，'。'...

看起来很合乎逻辑然后寻找自己和后代的文本元素

//div[contains(@id,"mw-content-text")]/ol/li[descendant-or-self::text]

但是根本没有任何回报！

有什么建议吗？我使用Python，因此我愿意使用其他模块进行后期处理。

(我用的是Scrapy HtmlXPathSelector这似乎的XPath 1.0标准)

2012-05-16

ChaimKut

可能有用：http://stackoverflow.com/questions/4378502/xpath-return-all-non-blank-text-nodes-not-descendant-of-a-style-or-script/6303276 –

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39947812

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python xpath获取多个li标签内容是空？还得结合正则表达式来爬取信息

net_code的博客

05-26

3484

python问题： xpath获取多个li标签内容是空的？ from scrapy.selector import Selector 想通过Selector爬取网站信息，同时保存多个li标签中的title标签值，总是得到空的列表。 names = sel.xpath('//*[@class="list-box"]/li/a/@title') 因为title标签内容和a标签文本内容一致，想获取文本，结果也为空列表。 name=sel.xpath('//div/ul[@class="list-box"]//

python的xpath获取div标签内html内容,实现innerhtml功能的方法

12-24

python的xpath没有获取div标签内html内容的功能，也就是获取div或a标签中的innerhtml，写了个小程序实现一下：源代码 [webadmin@centos7 csdnd4q] #162> vim /mywork/python/csdnd4q/z040.py #去掉最外层标签，保留其内的所有html标记和文本 def getinnerhtml(data): return data[data.find(">")+1:data.rfind("</")] str1="<a>OK<b>[推荐]</b></a>" print(getinnerhtml(str1)) 运行代码 [

参与评论您还未登录，请先登录后发表或查看评论

html的混合标记,HTML XPath：提取与多个标签混合的文本？

weixin_39894914的博客

06-28

234

目标：从特定元素(例如li)中提取文本，而忽略各种混合在标签中的内容，即展平第一级子级，并简单地分别返回每个展平型子级的串联文本。例：CIACentral Intelligence Agency.Culinary Institute of America.所需文字：Central Intelligence AgencyCulinary Institute of America除了周围的定位标记阻止...

html dt及dr属性,HTML: <dt> 标签

weixin_33274610的博客

06-04

1137

在线示例带有项目和描述的描述列表：示例html>HTML5dt标签的使用(基础教程网nhooo.com)BreakfastThefirstmealofthedayLunchAmealeateninthemiddleoftheday测试看看 ‹/›在此HTML5文档示例中，我们创建了一个包含2个字词(早餐和午餐)及其相应描述的描述列表。浏览器兼容性IEFirefo...

html中dr标签的作用是什么,DR是什么意思?关于DR的意义

weixin_28976179的博客

07-13

1612

DR是什么意思?关于DR的意义你了解吗?如果有人问你，用一辈子的桃花运，用一生只送一人的DR钻戒(Darry Ring)，换一个永远的爱人，你愿意吗?如果你能坚定地说出我愿意，那你已经明白了DR的意义。有些人的爱情，往往是需要一个顿号的，失恋，对方已经走了，你单方面的抓着这段感情，看起来像痴情，不过是做无用功，有些人和事，已经翻过去了，那就是一个大大的顿号，你知道的，除了相爱之外所有的喜欢都饱含心...

html5 中的标签

Dr_abandon的博客

06-27

786

按字母顺序排列标签描述  定义注释 <!DOCTYPE> 定义文档类型 <a> 定义超文本链接 <abbr> 定义缩写 <acronym> 定义只取首字母的缩写，不支持HTML5 <address> 定义文档作者或...

利用xpath提取标签下所有文本

01-08

利用xpath提取标签下所有文本html 样式xpath提取方式 html 样式该网页源代码是微博的一部分，我们需要提取博文，但发现标签下文本被分割开，这种情况应当如何处理 c 投诉一Z_c一忌甜忌辣忌油...

对Xpath 获取子标签下所有文本的方法详解

09-19

`string()`函数是XPath中用于获取节点文本内容的一个非常实用的方法。当你对一个节点集应用`string()`函数时，它会返回该节点集中第一个节点的字符串值。如果节点集为空，那么返回空字符串。在处理子标签下所有文本...

html锚中的必须属性,谈谈HTML中锚点及其使用

weixin_39755625的博客

06-04

783

概念元素 (或HTML锚元素, Anchor Element)通常用来表示一个锚点/链接。但严格来说，元素不是一个链接，而是超文本锚点，可以链接到一个新文件、用id属性指向任何元素。如果没有元素没有href属性的话，可以作为原本链接位置的占位符，常用于home链接[注意]任何文档流内容都可以被嵌套，只要不是交互内容类别(如按钮、链接等)属性hrefhref属性表示地址，共包括以下3种：1、链接地址...

html基础标签的认识基础概念认知及

最新发布

zhxjjsj的博客

11-11

558

网页的组成部分：文字、图片、音频、视频、超链接。

HTML

zuo_h_dr的博客

11-16

160

目录一.概述：二.基本格式：三：标记使用格式四.常用标签： 1.文字标记类： 1.1文字标记： 1.2文本标记：（成对出现） 2.表单标记： 2.1.表单 2.2.列表标签： 3.布局： 3.1.表格标记： 3.2.框架及标签： 4.style标签： 5.图片和连接标签： 5.1.图片： 5.2.友情连接：一.概述： 1.（HyperText ...

html中的meta标签总结与属性介绍

claudia_dawn的博客

09-02

501

meta表签：见 https://segmentfault.com/a/1190000004279791

【前端】【HTML】基础知识

我的的博客哦

03-06

6229

🔰HTML指的是超文本语言，它是用来描述网页的的一种语言。🔰HTML不是编程语言，而是一种标记语言。🔰标记语言是一套标记标签。

XPath提取多个标签下的text

qhexin的专栏

11-21

4340

XPath提取多个标签下的text内容网上搜到的基本都是这篇文章： xpath一次提取多个标签下的内容用的xpath string(.) 我试了一下，还是报错。不得已准备用迭代的方式取出内容。后来发现是selector.xpath('//xxxx')取出来的应该是集合，这个地方应该是写错误了，data要加上索引，即代码应该是： info = data[0].xpath('s...

xpath取出某个标签下多个标签的所有文本信息三种方法

Python_BT的博客

08-25

6505

爬虫爬取数据有时候我们需要爬取多个标签的文本内容，或者需要保留标签属性，就要连同标签一起拿下来。你可以写正则，今天我介绍一种用xpath爬取的方法。下边第一种方法就可以连同HTML标签一起爬下来，后两种能爬取所有文本信息，但没有了标签属性： ① 第一种方法可以取出某个标签内的HTML字符串，包含各种标签属性，输出的结果就是网页正常显示的文章部分的HTML。 html_content3 = requests.get(details_url).text html = etree.HTML(html_

【xpath】获取某标签下的所有子标签的文本