HTML解析利器HtmlAgilityPack

最新推荐文章于 2024-02-27 23:14:33 发布

sven_xu

最新推荐文章于 2024-02-27 23:14:33 发布

阅读量1.3k

点赞数

分类专栏：第三方

本文链接：https://blog.csdn.net/sven_xu/article/details/46323871

版权

第三方专栏收录该内容

16 篇文章 0 订阅

订阅专栏

　　在以前的项目中周公曾有解析HTML的情况，当时是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉，然后再用正则表达式找出需要提取的部分，可以说使用正则表达式来做是一个比较繁琐的过程，特别是对于正则表达式不是很熟悉或者要处理的HTML很复杂的情况下。
　　前两天在网上发现了一个.NET下的HTML解析类库HtmlAgilityPack。HtmlAgilityPack是一个支持用XPath来解析HTML的类库，它的主页是 http://htmlagilitypack.codeplex.com/，在这里可以下载到最新版的类库及API手册，此外还可以下载到一个用于调试的辅助工具。

XPath简明介绍
　　XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

下面列出了最有用的路径表达式：
　　nodename:选取此节点的所有子节点。
　　/:从根节点选取。
　　//:从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
　　.:选取当前节点。
　　..:选取当前节点的父节点。

HtmlAgilityPack API简明介绍
　　在HtmlAgilityPack中常用到的类有HtmlDocument、HtmlNodeCollection、HtmlNode和HtmlWeb等。
　　其流程一般是先获取HTML，这个可以通过HtmlDocument的Load()或LoadHtml()来加载静态内容，或者也可以HtmlWeb的Get()或Load()方法来加载网络上的URL对应的HTML。
　　得到了HtmlDocument的实例之后，就可以用HtmlDocument的DocumentNode属性，这是整个HTML文档的根节点，它本身也是一个HtmlNode，然后就可以利用HtmlNode的SelectNodes()方法返回多个HtmlNode的集合对象HtmlNodeCollection，也可以利用HtmlNode的SelectSingleNode()方法返回单个HtmlNode。

这段代码将采集到的首页html静态文本解析成Dom节点树，然后用Xpath表达式获取整个文档中class属性值为titlelnk。

　　　　HtmlWeb htmlWeb = new HtmlWeb();
        HtmlDocument htmlDoc = htmlWeb.Load(@"http://www.cnblogs.com/");
        HtmlNodeCollection anchors = htmlDoc.DocumentNode.SelectNodes(@"//a[@class='titlelnk']");
        foreach (HtmlNode anchor in anchors)
            Response.Write(anchor.InnerHtml + "<br/>");
        Response.End();

若需要抓取的节点有ID，类似“<div id='post_list'>value</div>”这种，那很简单只需调用GetElementbyId方法根据节点ID即可获取所需节点。从而通过HtmlNode中的InnerText或Attribute属性来获取你想要的值。

        //实例化HtmlAgilityPack.HtmlDocument对象
        HtmlDocument doc = new HtmlDocument();
        //载入HTML
        doc.LoadHtml(mainData);

        //根据HTML节点NODE的ID获取节点
        HtmlNode navNode = doc.GetElementbyId("post_list");

但很多情况下HTML节点是没有ID的，那就需要通过XPATH语言来查找匹配所需节点( XPath教程)。

        //实例化HtmlAgilityPack.HtmlDocument对象
        HtmlDocument doc = new HtmlDocument();
        //载入HTML
        doc.LoadHtml(mainData);

        //根据HTML节点NODE的ID获取节点
        HtmlNode navNode = doc.GetElementbyId("post_list");
        //根据XPATH来索引节点
        //div[2]表示文章链接a位于post_list里面第3个div节点中
        HtmlNode navNode2 = navNode.SelectSingleNode("//div[2]/h3/a");
        //获取文章链接地址
        string articleTitle = navNode2.Attributes["href"].Value.ToString();
        //获取文章标题
        string articleName = navNode2.InnerText;

sven_xu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HTML解析利器HtmlAgilityPack

在以前的项目中周公曾有解析HTML的情况，当时是采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉，然后再用正则表达式找出需要提取的部分，可以说使用正则表达式来做是一个比较繁琐的过程，特别是对于正则表达式不是很熟悉或者要处理的HTML很复杂的情况下。　　前两天在网上发现了一个.NET下的HTML解析类库HtmlAgilityPack。HtmlAgilityPack是一个支持用XPath
复制链接

扫一扫

专栏目录