在线html网页转xml,实现html转Xml

最新推荐文章于 2024-09-29 22:31:08 发布

火君

最新推荐文章于 2024-09-29 22:31:08 发布

阅读量1.9k

点赞数

文章标签：在线html网页转xml

本文介绍了一种借助HTMLParser库将HTML源码转换为XML格式的方法，以便于使用XPath进行网页内容的抓取和分析。通过创建XMLDocument，筛选目标标签并转换HTML节点，最终得到符合XML标准的文档。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在做一些网页信息采集的工作，说通俗点就是爬虫工具，要监控页面中某一部分内容是否发生变化。起初考虑用正则表达式去匹配网页源码，经过咨询有经验人士，推荐使用xpath去获取页面内容能获得更好的效率。但是对于html这种宽松语法要求的语言来说，不可能100%地完全符合xml标准，那么就没法使用xpath，说得更直接点就是：不能把html源码直接加载到xmldocument中。为了使用xpath，只能对html内容进行转换或者规范，于是就写了这么一个方法。

该方法比较地偷懒，借助了开源工具htmlparser获取html源码中的所有节点，然后遍历各个节点，转换为对应的xmlnode。对于html中有未闭合的节点，在转换后实际代码会有一些差别，但是不影响xpath的使用(这也跟如何写xpath的内容有关)。

///

/// 解析Xml文件的帮助类

///

public class XMLHelper

{

///

/// 有效名称的正则表达式

///

static string validName = @"^[^$/;""!#).]+$";

#region CovertHtmlToXml

///

/// 转换html源码为xml格式

///

/// html源码<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。