在线html网页转xml,实现html转Xml

本文介绍了一种借助HTMLParser库将HTML源码转换为XML格式的方法,以便于使用XPath进行网页内容的抓取和分析。通过创建XMLDocument,筛选目标标签并转换HTML节点,最终得到符合XML标准的文档。
摘要由CSDN通过智能技术生成

最近在做一些网页信息采集的工作,说通俗点就是爬虫工具,要监控页面中某一部分内容是否发生变化。起初考虑用正则表达式去匹配网页源码,经过咨询有经验人士,推荐使用xpath去获取页面内容能获得更好的效率。但是对于html这种宽松语法要求的语言来说,不可能100%地完全符合xml标准,那么就没法使用xpath,说得更直接点就是:不能把html源码直接加载到xmldocument中。为了使用xpath,只能对html内容进行转换或者规范,于是就写了这么一个方法。

该方法比较地偷懒,借助了开源工具htmlparser获取html源码中的所有节点,然后遍历各个节点,转换为对应的xmlnode。对于html中有未闭合的节点,在转换后实际代码会有一些差别,但是不影响xpath的使用(这也跟如何写xpath的内容有关)。

24a924a57ba6b3f2b51fc9edb7ea4186.png/// 

/// 解析Xml文件的帮助类

/// 

public class XMLHelper

{

/// 

/// 有效名称的正则表达式

/// 

static string validName = @"^[^$/;""!#).]+$";

#region CovertHtmlToXml

/// 

/// 转换html源码为xml格式

/// 

/// html源码<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值