Net下用Fizzler和HtmlAgilityPack实现简单爬虫

爬虫过程记录

特别说明
  1. 单纯利用HtmlAgilityPack爬虫,需要掌握xpath语法,这里利用Fizzler可以使用节点选择。
  2. 还是用python做爬虫快些,功能也全。

第一步,建立控制台程序

第二步,引入 Fizzler.Systems.HtmlAgilityPack; HtmlAgilityPack;

在这里插入图片描述

第三步,上代码

//复制了http://www.cnblogs.com/asxinyu/p/CSharp_HtmlAgilityPack_XPath_Weather_Data.html 代码
using System.IO; 
using System.Net;
using System.Text; 

namespace HtmlAgilityPackSpider
{
    class HtmlHelper
    {
        public static string GetWebClient(string url)
        {
            string strHTML = "";
            WebClient myWebClient = new WebClient();

            Stream myStream = myWebClient.OpenRead(url);
            StreamReader sr = new StreamReader(myStream, Encoding.Default);//注意编码
            strHTML = sr.ReadToEnd();
            myStream.Close();
            return strHTML;
        }
    }
}
using Fizzler.Systems.HtmlAgilityPack;
using HtmlAgilityPack;
using System; 

namespace HtmlAgilityPackSpider
{
    class Program
    {
        static void Main(string[] args)
        {
            Console.WriteLine("要输出了\n");                   
            string url = "http://xxgk.chd.edu.cn/info/1066/2419.htm";
            string htmlNode = "td.titlestyle46105";
            string res = zySpider(url, htmlNode);
            Console.WriteLine("爬虫链接是:"+url+"\n 新闻标题是:\n"+res);
            Console.ReadKey();
        }

     

        /// <summary>
        /// 获取网页节点内容
        /// </summary>
        /// <param name="url">待爬虫的网站链接</param>
        /// <param name="htmlNode">网页内的节点</param>
        /// <returns></returns>
        public static string zySpider(String url,string htmlNode)
        {
            //http://www.chd.edu.cn/2019/0416/c391a57993/page.htm
            //下载网页源代码,string格式
            string doctext = HtmlHelper.GetWebClient(url);
            //将字符串转化成html对象。
            HtmlDocument docHTML = new HtmlDocument();
            docHTML.LoadHtml(doctext);        
            var node = docHTML.DocumentNode.QuerySelector(htmlNode); //用到了using Fizzler.Systems.HtmlAgilityPack;
            string res = node.InnerText;
            return res;

        }
    }
}

结果

在这里插入图片描述

小技巧,用谷歌浏览器开发者工具查询节点。

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值