C#HTML解析利器HtmlAgilityPack

8 篇文章 0 订阅

HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手。目前最新版本为1.4.6,下载地址如下:http://htmlagilitypack.codeplex.com/ 目前稳定的版本是1.4.6,上一次更新还是2012年,所以很稳定,基本功能全面,也没必要更新了。 

  提到HtmlAgilityPack,就必须要介绍一个辅助工具,不知道其他人在使用的时候,是如何分析页面结构的。反正我是使用官方提供的一个叫做HAPExplorer的工具。非常有用。下面我们在使用的时候会介绍如何使用。

 

还是以辽宁省为例:http://www.tianqihoubao.com/lishi/ln.htm ,打开页面,右键获取网页源代码后,粘贴到 HAPExplorer 中,也可以直接在HAPExplorer 中打开链接,如下面的动画演示:

 

  我们可以看到,右侧的XPath地址,div结束后,下面都是dl标签,就是我们要采集的行了。下面我们用代码来获取上述结构。先看看获取页面源代码的代码:

public static string GetWebClient(string url)
{
    string strHTML = "";
    WebClient myWebClient = new WebClient();            
    Stream myStream = myWebClient.OpenRead(url);
    StreamReader sr = new StreamReader(myStream, Encoding.Default);//注意编码
    strHTML = sr.ReadToEnd();
    myStream.Close();
    return strHTML;
}
public static void ParsePageByArea(String cityCode)
{
    //更加链接格式和省份代码构造URL
    String url = String.Format("http://www.tianqihoubao.com/lishi/{0}.htm", cityCode);
    //下载网页源代码 
    var docText = HtmlHelper.GetWebClient(url);
    //加载源代码,获取文档对象
    var doc = new HtmlDocument(); doc.LoadHtml(docText);
    //更加xpath获取总的对象,如果不为空,就继续选择dl标签
    var res = doc.DocumentNode.SelectSingleNode(@"/html[1]/body[1]/div[1]/div[6]/div[1]/div[1]/div[3]");
    if (res != null)
    {
        var list = res.SelectNodes(@"dl");//选择标签数组
        if (list.Count < 1) return;
        foreach (var item in list)
        {
            var dd = item.SelectSingleNode(@"dd").SelectNodes("a");
            foreach (var node in dd)
            {
                var text = node.InnerText.Trim();
                //拼音代码要从href属性中进行分割提取
                var herf = node.Attributes["href"].Value.Trim().Split('/', '.');
                Console.WriteLine("{0}:{1}", text, herf[herf.Length - 2]);
            }
        }
    }
}
源地址:http://www.cnblogs.com/asxinyu/p/CSharp_HtmlAgilityPack_XPath_Weather_Data.html


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值