在html文档中br,如何解析下面的html代码在“br”标签之前获取所有文本

最新推荐文章于 2021-10-20 21:01:01 发布

千层猫

最新推荐文章于 2021-10-20 21:01:01 发布

阅读量1.5k

点赞数

文章标签：在html文档中br

我有以下的HTML代码：

Chairman of Microsoft

Chairman of Corbis

Co-Chair of the Bill & Melinda Gates Foundation

Director of Berkshire Hathaway

CEO of Cascade Investment

对于上面的td元素，语义上有五行，用"
"分隔，我想把这五行看作：

Chairman of Microsoft

Chariman of Borbis

Co-Char of the Bill&Melinda Gates Fundation

Creative Director of Berkshire Hathaway

CEO of Cascade Investment目前，我的解决方案是首先获取td中的所有br，如下所示：

br_value = td_node.select('.//br')那么对于每个br_value，我使用下面的代码来获取所有文本：

for br_item in br_value:

one_item = br_item.select('.//preceding-sibling::*/text()').extract()在这种情况下，我可以将该行作为：

Chairman Microsoft

Chariman Borbis

Bill&Melinda Gates Fundation

Director Berkshire Hathaway

CEO Cascade Investment与我想要的原文相比，他们基本上错过了“的”，还有一些其他的文字。

其原因是“先兄弟”只返回兄弟标签，但不能返回属于其父项的“文本”，如本例中的“of”。

这里的任何人都知道如何提取由br标记分隔的完整信息？

谢谢

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

千层猫

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

HTML的标签之：常用的文本标签，

weixin_44059282的博客

09-18

681

标题标签：h1-h6 标题标签顾名思义，就是设置HTML文档中，文章标题的标签。标题标签：有h1到h6分别代表不同的样式。就像这样的代码 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>标题标签</title> </head> <body> <h1>标题1</h1&g

HTML 段落

12-13

在HTML文档中，每个``标签代表一个独立的段落，浏览器会在段落前后自动添加适当的空白行，提供视觉上的区分。这意味着，如果你连续放置两个``标签，浏览器会将它们视为两个独立的段落，并在它们之间显示空白。...

参与评论您还未登录，请先登录后发表或查看评论

用于Rust的PIX BR代码解析器-Rust开发

05-27

用于Rust BR Code的PIX BR Code解析器用于解析并发出PIX BR Code的板条箱。 BR代码用法的技术和业务规范用法[依赖关系] brcode =“ 1.1.0” Shellscript从发行版获取文件：因此curl -s https://api.github.com/repos/naomijub/brcode/releases/latest \ | grep“ browser_download_url。* so” 切-d：-f 2,3 \ | tr -d \“ \ | wget -qi-dylib curl -s https://api.github.com/repos/naomijub/brcode/releases/latest \ | grep” browser_download_url。* dylib“ \ | cut -d：- f 2,3 \ | tr -d \“ \ | wget -qi-

OGG BR解析

oradbm的博客

09-24

2874

首先，我们来看两个OGG同步中可能的问题： l oracle在线日志包含已提交的和未提交的事务，但OGG只会将已提交的事务写入到队列文件。因此，针对未提交的事务，特别是未提交的长事务，OGG会怎样处理呢？ l 有些长事务是在批处理作业中，需要几个小时才能执行完成，比如晚上跑批的作业。OGG在解析过程中，会从这些事务一执行就开始读取在线日志，但这些事务可能会持续很久，这期间，在线日志可能...

python xpath 提取html 中使用 分割的文本

热门推荐

李御风的博客

09-20

1万+

文本格式形如：tips_lst = [] lst = page.xpath('//div/div') #提取 1、荷兰豆汆烫变色即可，千万不要过火，时间也就是几秒钟。 print lst[0].text #依次提取 2， 3， 4 lst = page.xpath('//div/div[@class="tip"]/br') for ll in lst: print ll.tail

前端基础（5）：html语法（4）： <td><tr><label>标签

Diligence is the mother of success.

11-07

1912

前端基础（5）：html语法（4）： <td><tr><label>标签

brcode:用于Rust的PIX BR代码解析器

04-06

BR代码一个用于解析并发出板条箱。重要变化对于BrCode字段，版本1.2 BrCode休息。修复了model::BrCode字段的initiation_method命名。用法 [ dependencies ] brcode = " 1.4.2 " 从源代码构建安装。为macos和ios文件make build-macos或为linux和android文件make build-linux 。文件将位于target/release/libbrcode.* ， target/<target>/release/libbrcode.so 。将它们复制到项目的根目录。对于JVM，运行export LD_LIBRARY_PATH=.很重要export LD_LIBRARY_PATH=. 在项目的根本从Github版本复制文件 Shellscript从发

html中br和br/的区别介绍

12-13

因此，在XHTML文档中，` `标签应该写为` `，这样做的目的是使文档符合XML的规则，从而确保文档的结构清晰和可解析性。然而，值得注意的是，尽管XHTML要求所有元素都有结束标签，但在HTML5中，对于像` `...

通过实例掌握BR和P标签的区别

09-28

在HTML文档中，当你需要在某处强制进行换行时，可以使用 ` ` 标签。例如，在诗歌或地址等需要逐行显示的内容中，` ` 是非常有用的。下面是一个使用 ` ` 标签的例子： ```html <html> <head><title>BR标记...

设置iframe的document.designMode后仅Firefox中其body[removed]为br

12-09

在HTML文档中，`iframe`元素用于嵌入一个独立的HTML文档或任何其他类型的Web内容。在处理`iframe`时，我们有时会用到`document.designMode`属性，这是一个非常有用的特性，允许我们使整个文档或者某个部分处于可编辑...

html页面抓取

ysong109的博客

07-28

206

public class Test001 { List rsList = new ArrayList(); private Test001() { try { loadHtml(); } catch (IOException e) { e.printSta...

网站运营分析-BR与ER

fbysss的专栏

10-12

3177

作者:fbysss msn:jameslastchina@hotmail.com blog:blog.csdn.net/fbysss 声明：本文由fbysss原创，转载请注明出处 关键字：网站运营数据分析 ER BR BR:Bound Rate 蹦失率 ER:Exit Rate 出站率 从中文意思也能比较准确的描述这两个指标。 所谓蹦失，也就是说，用户来到网站，什么都没做，就关闭了网页。这些用户可能是从搜

重学前端段落的空格解析/br和wbr/常见文本格式化标签/详解pre（white-space）/q（初见lang）/对比bdo和bdi/详解a（target cursor 链接- id）（第三天）

PBitW的博客

07-19

2303

段落拆行（br）合适处拆行（wbr）文本格式化 pre white-space q （初见lang） bdi 和 bdo 链接（a） target cursor 链接- id 属性

网络编程之解析网页

qq_36594703的博客

05-29

653

public class Ip{ public static void main(String[] args){ InetAddress myIp=null; try{ myIp=InetAddress.getLocalHost(); }catch(UnknownHostException e){} System.out.println(myIp); } }

Java之提取html中的文本内容

qq_22049773的博客

02-06

2717

思想如下：使用jsoup对html文档进行解析，每个html标签（Element）、文本（TextNode）都抽象成一个Node，每一个Node都含有childNodes()方法来枚举其包含的Node，这里通过递归来提取文本内容，对于非TextNode的Node，我们遍历其孩子Node，对于TextNode我们直接返回结果。其中jsoup的gradle依赖为compile 'org.j...

『HTML系列』br 标签

老__L的博客

10-20

1万+

本文主要介绍br标签。在 HTML 中，一个段落中的文字会从左到右依次排列，直到浏览器窗口的右端，然后自动换行。如果希望某段文本强制换行显示，就需要使用换行标签。br 是一个空元素；br 必须有一个开始标签，并且一定不能有结束标签。在 XHTML 中将元素写成为；标签是单标签；不要使用来增加文本之间的行间隔，应使用 CSS margin 属性或元素；br 标签在写诗和地址时很有用，这些地方的换行都非常重要；

td里面的内容加了br不起作用_用最详细直白的语言讲明白静态时序分析的基础内容...

weixin_39611510的博客

11-27

702

建立时间和保持时间是每个数字IC学生入门的基本功，然而网上已有的资料要么直接写公式，要么直接丢出整个波形图让学生自己体会，没有将波形图分解开来一步步讲述，逐渐推导出公式的资料，我在此抛砖引玉一下。故事是这样的，有一个拄着拐杖的数据老大爷，他要经过一个城门楼子，再爬过一个大山，去到另一个城门楼子。而城门楼子的大门不是随便开的，要分别等到不同时钟的上升沿信号到来才能打开一小段时间。上图也就相当于下面这...

HTML基础：标题标签与水平线解析