解析html程序(C#版)——遍历各个节点(mshtml)

最新推荐文章于 2024-07-15 08:00:00 发布

hanjieson

最新推荐文章于 2024-07-15 08:00:00 发布

阅读量1.4w

点赞数

分类专栏： c#

c# 专栏收录该内容

92 篇文章 1 订阅

订阅专栏

/*

在项目里引用了mshtml.dll，并且引用命名空间：using mshtml;

首先，参数html就是html文本内容（里面有markup标记和显示文本等等）

其次，getHtmlDisplayContent这个函数就是获取html里浏览器上可看到的内容，即从源码中取出显示文本。

最后，traverseNodes是个人写的一个遍历各个节点的一个小小递归程序，没考虑效率什么的，只是想知道怎么使用IHtmlDocument2和IHtmlDocument3接口

Note：当html文档不规范时，比如在<!Document....之前还有别的标记或者符号时，加载工作受到严重影响，此时估计是解析不出来了，我开始还不知道为什么解析有些html时卡住了，原来是因为这些html文档在html标记前有\n\n\n....等。。。

*/

private static string getHtmlDisplayContent(string html)

{

string cont = "";

mshtml.HTMLDocumentClass oc = new mshtml.HTMLDocumentClass();

mshtml.IHTMLDocument2 doc2 = oc;

doc2.write(html);

mshtml.IHTMLDocument3 HTMLDocument = (mshtml.IHTMLDocument3)doc2;

traverseNodes(HTMLDocument.documentElement, ref cont);

//mshtml.IHTMLTitleElement title = (mshtml.IHTMLTitleElement)doc2.title;

/* cont += doc2.title.ToString();

mshtml.IHTMLBodyElement body = (mshtml.IHTMLBodyElement)doc2.body;

if (body.text!=null)

cont += body.text.ToString();

* */

doc2.close();

return cont;

}

private static void traverseNodes(mshtml.IHTMLElement parentNode,ref string cont)

{

if (parentNode.innerText!=null)

cont += parentNode.innerText;

mshtml.IHTMLElementCollection nodes = (IHTMLElementCollection)parentNode.children;

IEnumerator ienum= nodes.GetEnumerator();

while (ienum.MoveNext())

{

IHTMLElement node = (IHTMLElement)ienum.Current;

traverseNodes(node,ref cont);

}

}

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。