.Net爬虫(1)——第一个简单的爬虫

DotnetSpider

DotnetSpider 是一个轻量、灵活、高性能、跨平台的分布式网络爬虫框架,可以帮助 .NET 工程师快速的完成爬虫的开发。

目标

第一个简单的爬虫需要达到的目标:

  1. 从博客园抓取博客;
  2. 抓取标题、作者、发布时间、正文Url;

准备工作

  1. 新建控制台项目
  2. Nuget添加DotnetSpider、Serilog.AspNetCore、Serilog.Sinks.Console、Serilog.Sinks.RollingFile、Serilog.Sinks.PeriodicBatching

开始

  1. 创建BlogSpider.cs并添加以下代码
	public class BlogSpider : Spider
    {
        public BlogSpider(IOptions<SpiderOptions> options, SpiderServices services, ILogger<Spider> logger) : base(
            options, services, logger)
        {
        }

        protected override async Task InitializeAsync(CancellationToken stoppingToken)
        {
            // 添加自定义解析
            AddDataFlow(new Parser());
            // 使用控制台存储器
            AddDataFlow(new ConsoleStorage());

            // 添加采集请求
            await AddRequestsAsync("");
        }

        class Parser : DataParser
        {
            protected override Task Parse(DataContext context)
            {
                var selectable = context.Selectable;
                
                return Task.CompletedTask;
            }
        }
    }
  1. 创建Blog.cs并添加以下代码
		public class Blog
        {
            public string Title { get; set; }
            public string Time { get; set; }
            public string Author { get; set; }
            public string ContentUrl { get; set; }
        }
  1. 找出博客园博客列表请求地址
    在这里插入图片描述
    url:https://www.cnblogs.com/sitehome/p/x
  2. 修改采集请求地址
		protected override async Task InitializeAsync(CancellationToken stoppingToken)
        {
            // 添加自定义解析
            AddDataFlow(new Parser());
            // 使用控制台存储器
            AddDataFlow(new ConsoleStorage());
            
            List<string> urlList = new List<string>();
            for (int i = 1; i < 11; i++) 
            {
                urlList.Add($"https://www.cnblogs.com/sitehome/p/{i}");
            }

            // 添加采集请求
            await AddRequestsAsync(urlList.ToArray());
        }
  1. 添加解析逻辑
			protected override Task Parse(DataContext context)
            {
                var selectable = context.Selectable;
                //取得本页博客列表
                var postList = selectable.XPath(".//div[@id='post_list']").Nodes();
                List<Blog> blogList = new List<Blog>();
                foreach (var postItem in postList)
                {
                    //解析标题
                    var title = postItem.XPath(".//a[@class='titlelnk']")?.Value;
                    if (!string.IsNullOrEmpty(title))
                    {
                        //解析发布时间文本内容
                        var time = postItem.XPath(".//div[@class='post_item_foot']")?.Value;
                        //时间文本提取
                        time = time.Replace("\r", string.Empty).Replace("\n", string.Empty);
                        time = time.Substring(time.IndexOf("发布于") + 3);
                        time = time.Substring(0, time.IndexOf("评论(")).TrimStart(' ').TrimEnd(' ');
                        //解析作者
                        var author = postItem.XPath(".//div[@class='post_item_foot']/a")?.Value;
                        //解析正文链接
                        var contentUrl = postItem.XPath(".//div[@class='post_item_body']//a[@class='titlelnk']/@href")?.Value;
                        
                        var blog = new Blog();
                        blog.Title = title;
                        blog.Time = time;
                        blog.Author = author;
                        blog.ContentUrl = contentUrl;
                        blogList.Add(blog);
                    }

                }
                context.AddData("Blogs", blogList);

                return Task.CompletedTask;
            }
  1. 修改Program.cs
		static async System.Threading.Tasks.Task Main(string[] args)
        {
            Log.Logger = new LoggerConfiguration()
                .MinimumLevel.Information()
                .MinimumLevel.Override("Microsoft.Hosting.Lifetime", LogEventLevel.Warning)
                .MinimumLevel.Override("Microsoft", LogEventLevel.Warning)
                .MinimumLevel.Override("System", LogEventLevel.Warning)
                .MinimumLevel.Override("Microsoft.AspNetCore.Authentication", LogEventLevel.Warning)
                .Enrich.FromLogContext()
                .WriteTo.Console().WriteTo.RollingFile("logs/spiders.log")
                .CreateLogger();

            var builder = Builder.CreateDefaultBuilder<BlogSpider>(options =>
            {
                // 每秒 1 个请求
                options.Speed = 1;
                // 请求超时
                options.RequestTimeout = 10;
            });
            builder.UseSerilog();
            builder.UseQueueDistinctBfsScheduler<HashSetDuplicateRemover>();
            await builder.Build().RunAsync();

            Environment.Exit(0);
        }

运行

在这里插入图片描述
在这里插入图片描述

总结

虽然是一个Helloworld项目,但是对于xpath的使用需要有一定的了解

相关资料

第一个简单的爬虫
XPath 语法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
.Net中有不少开源的爬虫工具,abot就是其中之一。Abot是一个开源的.net爬虫,速度快,易于使用和扩展。项目的地址是 https://github.com/sjdirect/abot 对于爬取的Html,使用的分析工具是CsQuery, CsQuery可以算是.net中实现的Jquery, 可以使用类似Jquery中的方法来处理html页面。CsQuery的项目地址是https://github.com/afeiship/CsQuery一. 对Abot爬虫配置1. 通过属性设置先创建config对象,然后设置config中的各项属性:CrawlConfiguration crawlConfig = new CrawlConfiguration();  crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;  crawlConfig.MaxPagesToCrawl = 1000;  crawlConfig.UserAgentString = "abot v1.0 http://code.google.com/p/abot";  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111");  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue2", "2222");2. 通过App.config配置直接从配置文件中读取,但是也任然可以在修改各项属性:CrawlConfiguration crawlConfig = AbotConfigurationSectionHandler.LoadFromXml().Convert(); crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;3. 应用配置到爬虫对象PoliteWebCrawler crawler = new PoliteWebCrawler(); PoliteWebCrawler crawler = new PoliteWebCrawler(crawlConfig, null, null, null, null, null, null, null);二,使用爬虫,注册各种事件爬虫中主要是4个事件, 页面爬取开始、页面爬取失败、页面不允许爬取事件、页面中的链接不允许爬取事件。下面是示例代码:crawlergeCrawlStartingAsync  = crawler_ProcessPageCrawlStarting;//单个页面爬取开始  crawler.PageCrawlCompletedAsync  = crawler_ProcessPageCrawlCompleted;//单个页面爬取结束  crawler.PageCrawlDisallowedAsync  = crawler_PageCrawlDisallowed;//页面不允许爬取事件  crawler.PageLinksCrawlDisallowedAsync  = crawler_PageLinksCrawlDisallowed;//页面链接不允许爬取事件 void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("About to crawl link {0} which was found on page {1}", pageToCrawl.Uri.AbsoluteUri, pageToCrawl.ParentUri.AbsoluteUri); } void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)     Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);   else     Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);   if (string.IsNullOrEmpty(crawledPage.Content.Text))     Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri); } void crawler_PageLinksCrawlDisallowed(object sender, PageLinksCrawlDisallowedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   Console.WriteLine("Did not crawl the links on page {0} due to {1}", crawledPage.Uri.AbsoluteUri, e.DisallowedReason); } void crawler_PageCrawlDisallowed(object sender, PageCrawlDisallowedArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("Did not crawl page {0} due to {1}", pageToCrawl.Uri.AbsoluteUri, e.DisallowedReason); }三, 为爬虫添加多个附加对象Abot应该是借鉴了Asp.net MVC中的ViewBag, 也为爬虫对象设置了对象级别的CrwalBag和Page级别的ViewBag.PoliteWebCrawler crawler = new PoliteWebCrawler(); crawler.CrawlBag.MyFoo1 = new Foo();//对象级别的 CrwalBagcrawler.CrawlBag.MyFoo2 = new Foo(); crawler.PageCrawlStartingAsync  = crawler_ProcessPageCrawlStarting; ...void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   //获取CrwalBag中的对象   CrawlContext context = e.CrawlContext;    context.CrawlBag.MyFoo1.Bar();  //使用CrwalBag    context.CrawlBag.MyFoo2.Bar();      //使用页面级别的    PageBag  e.PageToCrawl.PageBag.Bar = new Bar(); }四,启动爬虫启动爬虫非常简单,调用Crawl方法,指定好开始页面,就可以了。CrawlResult result = crawler.Crawl(new Uri("  if (result.ErrorOccurred)         Console.WriteLine("Crawl of {0} completed with error: {1}",          result.RootUri.AbsoluteUri, result.ErrorException.Message         );          else         Console.WriteLine("Crawl of {0} completed without error.", result.RootUri.AbsoluteUri);五,介绍CsQuery在PageCrawlCompletedAsync事件中, e.CrawledPage.CsQueryDocument就是一个CsQuery对象。这里介绍一下CsQuery在分析Html上的优势:cqDocument.Select(".bigtitle > h1")这里的选择器的用法和Jquery完全相同,这里是取class为.bittitle下的h1标签。如果你能熟练的使用Jquery,那么上手CsQuery会非常快和容易。 标签:网络爬虫  网络蜘蛛
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值