利用HtmlAgilityPack 获取网页相关内容

相关步骤

1.根据url构建 HtmlDocument

2.利用xpath 查找想要的内容

如果查找内容唯一 用SelecteSingleNode直接定位

如果是多个,需要循环遍历

代码如下

static void Main(string[] args)
        {
            string url = " https://mp.weixin.qq.com/s/mWN67V3IOEUWk1sj3Kl1Xg";
            Console.WriteLine("待解析的url:{0}",url);
            HttpWebRequest httpWebRequest = WebRequest.Create(new Uri(@url)) as HttpWebRequest;
            httpWebRequest.Method = "GET";
            using (HttpWebResponse response = httpWebRequest.GetResponse() as HttpWebResponse)
            {
                Stream stream = response.GetResponseStream(); 
                HtmlDocument htmlDoc = new HtmlDocument();
                htmlDoc.Load(stream,Encoding.UTF8);
                var titleNode = htmlDoc.DocumentNode.SelectSingleNode("//head/title");
                var descNodes = htmlDoc.DocumentNode.SelectNodes("//div");
                HtmlNode hn = null;
                string descStr = url;
                foreach (var item in descNodes)
                {
                    var id = item.GetAttributeValue("id", "");
                    if (id == "js_content")
                    {
                        hn = item;
                        descStr = item.InnerText.Replace("\n", "").Trim();                       
                        break;
                    }
                }
                var ImgNodes = hn.SelectSingleNode("//div[@id='js_content']//img"); 
                string imgStr = "";
                imgStr = ImgNodes.GetAttributeValue("data-src", "");
                string str = "";
                if (titleNode != null)
                    str = titleNode.InnerText.Replace("\n", "").Trim();
                Console.WriteLine("title:{0},desc:{1},img:{2}", str, descStr, imgStr);


                hn=htmlDoc.DocumentNode.SelectSingleNode("//meta[@property='og:title']");
                string titleNew= hn.GetAttributeValue("content","");



            }
           
            Console.ReadKey();
        }

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值