利用Abot 抓取博客园新闻数据

此文描述了利用Abot 抓取博客园新闻数据的相关介绍,具体实例请看下文

1. 引言

相比于Java而言,基于C#的开源爬虫就少了很多。入行这么多年也从未接触过爬虫。出于兴趣今天给大家介绍一个C# 的爬虫工具Abot. 需要使用可以通过Nuget获取。Abot本身就支持多线程的爬取,

内部使用CsQuery来解析爬取到的Html文档。熟悉jQuery的同学肯定能快速上手CsQuery, 它就是一个C#版本的jQuery。

这里以爬取博客园当天的新闻数据为例,看看如何使用Abot。

2. 博客园新闻页面

http://news.cnblogs.com/ 这是博客园的新闻首页。可以看到典型的分页显示。比如 http://news.cnblogs.com/n/page/2/ 这是新闻的第二页。

真正的新闻详细页面 比如:http://news.cnblogs.com/n/544956/, 通过正则表达式可以很轻松的匹配这两种Url 类型。

当然我们可以通过一个 for 循环分别爬取各个page的新闻数据。然后解析出发表于今天的新闻。但是我希望只以http://news.cnblogs.com/ 为种子页面,爬取今天的新闻。

由于博客园新闻分页并不是采用Ajax,对于爬虫而言这非常友好

利用Abot 抓取博客园新闻数据

因此我们定义

?
code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
/// <summary>
/// 种子Url
/// </summary>
public static readonly Uri FeedUrl = new Uri(@ "http://news.cnblogs.com/" );
 
/// <summary>
///匹配新闻详细页面的正则
  /// </summary>
public static Regex NewsUrlRegex = new Regex( "^http://news.cnblogs.com/n/\\d+/$" , RegexOptions.Compiled);
 
/// <summary>
/// 匹配分页正则
  /// </summary>
public static Regex NewsPageRegex = new Regex( "^http://news.cnblogs.com/n/page/\\d+/$" , RegexOptions.Compiled);
3. 实现

Abot 其实已经对爬虫内部实现封装的非常精巧,使用者只需要设置一些Config 参数和爬取页面的一些事件即可。

?
code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
public static IWebCrawler GetManuallyConfiguredWebCrawler()
{
     CrawlConfiguration config = new CrawlConfiguration();
     config.CrawlTimeoutSeconds = 0;
     config.DownloadableContentTypes = "text/html, text/plain" ;
     config.IsExternalPageCrawlingEnabled = false ;
     config.IsExternalPageLinksCrawlingEnabled = false ;
     config.IsRespectRobotsDotTextEnabled = false ;
     config.IsUriRecrawlingEnabled = false ;
     config.MaxConcurrentThreads = System.Environment.ProcessorCount;
     config.MaxPagesToCrawl = 1000;
     config.MaxPagesToCrawlPerDomain = 0;
     config.MinCrawlDelayPerDomainMilliSeconds = 1000;
 
     var crawler = new PoliteWebCrawler(config, null, null, null, null, null, null, null, null);
 
     crawler.ShouldCrawlPage(ShouldCrawlPage);
 
     crawler.ShouldDownloadPageContent(ShouldDownloadPageContent);
 
     crawler.ShouldCrawlPageLinks(ShouldCrawlPageLinks);
 
     crawler.PageCrawlStartingAsync += crawler_ProcessPageCrawlStarting;
     
     //爬取页面后的回调函数
     crawler.PageCrawlCompletedAsync += crawler_ProcessPageCrawlCompletedAsync;
     crawler.PageCrawlDisallowedAsync += crawler_PageCrawlDisallowed;
     crawler.PageLinksCrawlDisallowedAsync += crawler_PageLinksCrawlDisallowed;
 
     return crawler;
}

具体调用非常简单:

?
code
1
2
3
4
5
6
7
public static void Main(string[] args)
{
     var crawler = GetManuallyConfiguredWebCrawler();
     var result = crawler.Crawl(FeedUrl);
 
     System.Console.WriteLine(result.ErrorException);
}

最主要的是PageCrawlCompletedAsync,可以在该事件下获取需要的页面数据。

?
code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
public static void crawler_ProcessPageCrawlCompletedAsync(object sender, PageCrawlCompletedArgs e)
{
     //判断是否是新闻详细页面
     if (NewsUrlRegex.IsMatch(e.CrawledPage.Uri.AbsoluteUri))
     {
         //获取信息标题和发表的时间
            var csTitle = e.CrawledPage.CsQueryDocument.Select( "#news_title" );
         var linkDom = csTitle.FirstElement().FirstChild;
 
         var newsInfo = e.CrawledPage.CsQueryDocument.Select( "#news_info" );
         var dateString = newsInfo.Select( ".time" , newsInfo);
 
         //判断是不是今天发表的
           if (IsPublishToday(dateString.Text()))
         {
             var str = (e.CrawledPage.Uri.AbsoluteUri + "\t" + HtmlData.HtmlDecode(linkDom.InnerText) + "\r\n" );
             System.IO.File.AppendAllText( "fake.txt" , str);
         }
     }
}
 
/// <summary>
/// "发布于 2016-05-09 11:25" => true
/// </summary>
public static bool IsPublishToday(string str)
{
     if (string.IsNullOrEmpty(str))
     {
         return false ;
     }
 
     const string prefix = "发布于" ;
     int index = str.IndexOf(prefix, StringComparison.OrdinalIgnoreCase);
     if (index >= 0)
     {
         str = str.Substring(prefix.Length).Trim();
     }
 
     DateTime date;
     return DateTime.TryParse(str, out date) && date.Date.Equals(DateTime.Today);
}

为了提升爬取的效果 比如在首页爬虫抓取到 http://news.cnblogs.com/n/topiclist/, 显然这样的链接我们不需要, 那就可以设置爬取的规则:

?
code
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
/// <summary>
/// 如果是Feed页面或者分页或者详细页面才需要爬取
  /// </summary>
private static CrawlDecision ShouldCrawlPage(PageToCrawl pageToCrawl, CrawlContext context)
{
     if (pageToCrawl.IsRoot || pageToCrawl.IsRetry || FeedUrl == pageToCrawl.Uri
         || NewsPageRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri)
         || NewsUrlRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri))
     {
         return new CrawlDecision {Allow = true };
     }
     else
     {
         return new CrawlDecision {Allow = false , Reason = "Not match uri" };
     }
}
/// <summary>
/// 如果是Feed页面或者分页或者详细页面才需要爬取
  /// </summary>
private static CrawlDecision ShouldDownloadPageContent(PageToCrawl pageToCrawl, CrawlContext crawlContext)
{
     if (pageToCrawl.IsRoot || pageToCrawl.IsRetry || FeedUrl == pageToCrawl.Uri
         || NewsPageRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri)
         || NewsUrlRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri))
     {
         return new CrawlDecision
         {
             Allow = true
         };
     }
 
     return new CrawlDecision { Allow = false , Reason = "Not match uri" };
}
 
private static CrawlDecision ShouldCrawlPageLinks(CrawledPage crawledPage, CrawlContext crawlContext)
{
     if (!crawledPage.IsInternal)
         return new CrawlDecision {Allow = false , Reason = "We dont crawl links of external pages" };
 
     if (crawledPage.IsRoot || crawledPage.IsRetry || crawledPage.Uri == FeedUrl
         || NewsPageRegex.IsMatch(crawledPage.Uri.AbsoluteUri))
     {
         return new CrawlDecision {Allow = true };
     }
     else
     {
         return new CrawlDecision {Allow = false , Reason = "We only crawl links of pagination pages" };
     }
}

最终抓到的数据:

利用Abot 抓取博客园新闻数据

4. 总结

Abot 还是一个非常方便爬虫,如果运用到实际生产环境中,参数配置是首先需要解决的,比如 MaxPagesToCrawl 最大抓取的页面数,还可以设置爬虫内存限制等。

.Net中有不少开源的爬虫工具,abot就是其中之一。Abot是一个开源的.net爬虫,速度快,易于使用和扩展。项目的地址是 https://github.com/sjdirect/abot 对于爬取的Html,使用的分析工具是CsQuery, CsQuery可以算是.net中实现的Jquery, 可以使用类似Jquery中的方法来处理html页面。CsQuery的项目地址是https://github.com/afeiship/CsQuery一. 对Abot爬虫配置1. 通过属性设置先创建config对象,然后设置config中的各项属性:CrawlConfiguration crawlConfig = new CrawlConfiguration();  crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;  crawlConfig.MaxPagesToCrawl = 1000;  crawlConfig.UserAgentString = "abot v1.0 http://code.google.com/p/abot";  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111");  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue2", "2222");2. 通过App.config配置直接从配置文件中读取,但是也任然可以在修改各项属性:CrawlConfiguration crawlConfig = AbotConfigurationSectionHandler.LoadFromXml().Convert(); crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;3. 应用配置到爬虫对象PoliteWebCrawler crawler = new PoliteWebCrawler(); PoliteWebCrawler crawler = new PoliteWebCrawler(crawlConfig, null, null, null, null, null, null, null);二,使用爬虫,注册各种事件爬虫中主要是4个事件, 页面爬取开始、页面爬取失败、页面不允许爬取事件、页面中的链接不允许爬取事件。下面是示例代码:crawlergeCrawlStartingAsync  = crawler_ProcessPageCrawlStarting;//单个页面爬取开始  crawler.PageCrawlCompletedAsync  = crawler_ProcessPageCrawlCompleted;//单个页面爬取结束  crawler.PageCrawlDisallowedAsync  = crawler_PageCrawlDisallowed;//页面不允许爬取事件  crawler.PageLinksCrawlDisallowedAsync  = crawler_PageLinksCrawlDisallowed;//页面链接不允许爬取事件 void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("About to crawl link {0} which was found on page {1}", pageToCrawl.Uri.AbsoluteUri, pageToCrawl.ParentUri.AbsoluteUri); } void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)     Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);   else     Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);   if (string.IsNullOrEmpty(crawledPage.Content.Text))     Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri); } void crawler_PageLinksCrawlDisallowed(object sender, PageLinksCrawlDisallowedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   Console.WriteLine("Did not crawl the links on page {0} due to {1}", crawledPage.Uri.AbsoluteUri, e.DisallowedReason); } void crawler_PageCrawlDisallowed(object sender, PageCrawlDisallowedArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("Did not crawl page {0} due to {1}", pageToCrawl.Uri.AbsoluteUri, e.DisallowedReason); }三, 为爬虫添加多个附加对象Abot应该是借鉴了Asp.net MVC中的ViewBag, 也为爬虫对象设置了对象级别的CrwalBag和Page级别的ViewBag.PoliteWebCrawler crawler = new PoliteWebCrawler(); crawler.CrawlBag.MyFoo1 = new Foo();//对象级别的 CrwalBagcrawler.CrawlBag.MyFoo2 = new Foo(); crawler.PageCrawlStartingAsync  = crawler_ProcessPageCrawlStarting; ...void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   //获取CrwalBag中的对象   CrawlContext context = e.CrawlContext;    context.CrawlBag.MyFoo1.Bar();  //使用CrwalBag    context.CrawlBag.MyFoo2.Bar();      //使用页面级别的    PageBag  e.PageToCrawl.PageBag.Bar = new Bar(); }四,启动爬虫启动爬虫非常简单,调用Crawl方法,指定好开始页面,就可以了。CrawlResult result = crawler.Crawl(new Uri("  if (result.ErrorOccurred)         Console.WriteLine("Crawl of {0} completed with error: {1}",          result.RootUri.AbsoluteUri, result.ErrorException.Message         );          else         Console.WriteLine("Crawl of {0} completed without error.", result.RootUri.AbsoluteUri);五,介绍CsQuery在PageCrawlCompletedAsync事件中, e.CrawledPage.CsQueryDocument就是一个CsQuery对象。这里介绍一下CsQuery在分析Html上的优势:cqDocument.Select(".bigtitle > h1")这里的选择器的用法和Jquery完全相同,这里是取class为.bittitle下的h1标签。如果你能熟练的使用Jquery,那么上手CsQuery会非常快和容易。 标签:网络爬虫  网络蜘蛛
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值