html嵌套修改,如何清除html中反复嵌套的标签

最新推荐文章于 2023-03-24 15:52:42 发布

weixin_39542477

最新推荐文章于 2023-03-24 15:52:42 发布

阅读量280

点赞数

文章标签： html嵌套修改

在帮人爬一个奇葩网站的数据中，发现一些网页的表格无论是用BeautifulSoup 还是 lxml解析都是失败或者不完整的。

查看页面源码发现，表格最后一列的所有数据虽然都只有一个 '-',但是内容却是藏在非常大量的无用标签底下。

其他列的数据只是在table/tbody/tr/td/div/span 下

仅这列的数据是在table/tbody/tr/td/div/span/+(非常多层的div span)下。

删除了部分多于的内容后，html文件百度网盘链接在此，

问题html文件

总的来说，我的问题就是，如何判别这种无限叠加的无效标签，并替换为能被BS或者lxml读取的格式？

现在正在试验的是 lxml中Cleaner类

page = open(test_path, encoding='utf-8').read()

cleaner = Cleaner(style=True, remove_tags=['div','span', 'font'])

page = cleaner.clean_html(page)

如果读入内容仅一层 tr的话倒是能正确清理了！

但是如果把整个表的html读入，进行清理，不知道因为什么原因。

只能读入到嵌套的地方未知，后续的内容全部被删。

初步怀疑是python的递归限制？

正在试验xpath。

试验失败。

通过xpath读取tabl下的tr标签查看数量。

发现也仅能读取嵌套位置前的tr标签，后续标签无法查询。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39542477

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【前端基础篇】快速学习HTML常用标签和属性

前端知识分享喵

06-12

1346

WEB标准不是某一个标准，而是一系列标准的集合。网页主要由三部分组成：结构（Structure-html）、表现（Presentation-css）和行为（Behavior-javascript）。对应的标准也分三方面：结构化标准语言主要包括XHTML和XML，表现标准语言主要包括CSS，行为标准主要包括对象模型（如W3C DOM）、ECMAScript等。

Python爬虫入门8：BeautifulSoup获取html标签相关属性

老猿Python

01-30

3605

本节介绍了BeautifulSoup对象的主要属性，通过这些属性可以访问特定标签和内容。

参与评论您还未登录，请先登录后发表或查看评论

python去除所有html标签的方法

09-22

主要介绍了python去除所有html标签的方法,涉及Python正则替换的相关技巧,非常简单实用,需要的朋友可以参考下

网页解析：如何获得网页源码中嵌套的标签。

weixin_34049032的博客

07-09

153

一：前言：网页源码中有很多嵌套的标签例如div标签嵌套如：bUTP<DIV>finally<div>aurora</div>@126.com</div><div class=\"Cited1\">ggff</div> 我们的网页解析工作中有时候需要解嵌套。通俗的讲就是把嵌套的标签以线性表的形式表示出来。还拿上面的例子

html过滤标签,过滤HTML标签

weixin_39571219的博客

06-09

277

public static String htmlRemoveTag(String inputString) {if (inputString == null)return null;String htmlStr = inputString; // 含html标签的字符串String textStr = "";java.util.regex.Pattern p_script;java.util.r...

html表格的表尾标签是,表格标签

weixin_42526087的博客

06-20

245

# 表格标签表格(table)以行(row)和列(column)的形式展示数据。## 1.``，````是一个块级容器标签，所有表格内容都要放在这个标签里面。~~~... ...~~~``总是``里面的第一个子元素，表示表格的标题。该元素是可选的。~~~示例表格~~~## 2.``、``、````、``、``都是块级容器元素，且都是``的一级子元素，分别表示表头、表体和表尾。~~~... .......

使用position减少div的嵌套

woallf的专栏

02-12

534

<br /><br />以前对网页进行布局是总是使用大量的div嵌套<br /> 及时是很小的一块也嵌套div，今天看了腾讯CDC<br /> 的blog源代码，受到启发，一些小的部分的布局没有必要<br /> 嵌套div，使用position实现比较好。<br /> 以前使用的较少，现做一个例子练手，代码如下：<br /><!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtm

前端入门知识点之html标签

最新发布

weixin_54420253的博客

03-24

507

全称是 HyperText Markup Language 即超⽂本标记语⾔，⼀种⽤于创建⽹⻚的标准标记语⾔。

dev控件调用html页面,DevExpress使用教程：常用Winform界面封装

weixin_39827506的博客

06-04

1125

我们在开发Winform程序的时候，需要经常性的对界面的一些控件进行初始化，或者经常简单的封装，以方便我们在界面设计过程中反复使用。本文主要介绍在我的一些项目中常用的界面处理操作和代码，以便为大家开发的时候提供必要的参考。1、选择用户的控件封装操作在一些系统模块里面，我们需要选择系统人员作为经办人员的操作，如下面几个界面场景所示。我们注意到，一般在我们选择的时候，界面会弹出一个新的层给我们选择，里...

HTML5、CSS、JS基础

qq_49101841的博客

03-03

2251

学习笔记

使用lxml.html.clean.Cleaner清洗html

reg183的专栏

09-25

544

清洗之后内容简洁多了。

python数据清洗代码_[python爬虫]利用xpath清洗数据之html数据清洗【附完整代码】...

weixin_39837607的博客

12-11

774

今天爱分享给大家带来[python爬虫]利用xpath清洗数据之html数据清洗【附完整代码】，希望大家能够喜欢。现在我们面对一些爬虫数据，特别是对于web网页的爬取的时候，网页总有一些不规整的数据来导致拿数据的麻烦，比如如下这种111222333444eeeeeeeeeeee555aabbccddd我只想拿到111,222,333,444,555这些有效的信息，因为有些p标签里面会引入scrip...

性能优化系列之『HTML：怎样精简优化HTML的代码结构？』

老__L的博客

01-01

621

性能优化系列之『HTML：怎样精简优化HTML的代码结构？』

htmlcleaner 使用示例

xiaomin1991222的专栏

05-07

553

原文出处：http://blog.chenlb.com/2008/11/htmlcleaner-use-demo.html 编程的时候，有时数据源从html来。那就要对html分析提取数据。好在java社区里有好有相关库来解析html，经使用比较：个人觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。也可能我对htmlparser不熟...

HtmlCleaner解析HTML

圣人男的博客

03-03

1198

HtmlCleaner是一款高效的HTML解析器，支持 Xpath语法提取HTML中的节点或元素。 1.添加依赖 <dependency> <groupId>net.sourceforge.htmlcleaner</groupId> <artifactId>htmlcleaner</artifactId> <...

幽灵空格

june_ruikang的博客

06-02

400

以下内容来自：http://www.jb51.net/css/100638.html 试过1和3，ok 解决方案1: font-size:0; 最好的方法是在外层元素上设置font-size:0;同时在内层元素上指定字体具体的大小。复制代码代码如下: ul.inline-block-list { /* 比如 ul 或者 ol元素 */ font-si

去掉html标签（真正意义上去掉所有html标签包括内嵌的css样式）

我驾驶汽车从不是为了从A点到达B点，我喜欢去感受汽车，与之交流，与之融为一体。

05-06

905

/*去掉html标签（真正意义上去掉所有html标签包括内嵌的css样式）*/ stripHTML(html, isRemoveNewLine) { var t = document.createElement("div"); t.innerHTML = html; document.querySelector("html").appendChild(t); var r = t.innerText; t.parentN.

html取消重复,减少重复的HTML代码

weixin_30187777的博客

06-22

737

有可能用JavaScript来做到这一点 - 你基本上是提供给用户的浏览器与一群件以及如何从这些片段构建页面的配方。但是，这会让用户感觉页面变慢，因为他们必须加载页面，然后等待浏览器执行您的指令。不过，有些情况下这绝对是一个很好的解决方案，如果您有兴趣，我建议您研究一下像Handlebars这样的JS模板引擎，这样可以更轻松地完成此操作。 @ Mike-C的回答很好地描述了如何在没有模板引擎的情况...

PHP修复HTML标签代码(支持嵌套与就近闭合)

"PHP 修复未正常关闭的HTML标签实现代码(支持嵌套和就近闭合)" 这篇关于PHP的文章提供了修复未正确关闭HTML标签的函数`fixHtmlTag`，适用于处理那些存在嵌套和就近闭合问题的HTML代码。这个函数能够帮助开发者处理...

html嵌套修改,如何清除html中 反复嵌套的标签

html嵌套修改,如何清除html中反复嵌套的标签