利用Abot 抓取博客园新闻数据

最新推荐文章于 2024-05-09 10:06:19 发布

侯炯

最新推荐文章于 2024-05-09 10:06:19 发布

阅读量7.4k

点赞数 1

分类专栏：爬虫

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

此文描述了利用Abot 抓取博客园新闻数据的相关介绍，具体实例请看下文

1. 引言

相比于Java而言，基于C#的开源爬虫就少了很多。入行这么多年也从未接触过爬虫。出于兴趣今天给大家介绍一个C# 的爬虫工具Abot. 需要使用可以通过Nuget获取。Abot本身就支持多线程的爬取，

内部使用CsQuery来解析爬取到的Html文档。熟悉jQuery的同学肯定能快速上手CsQuery, 它就是一个C#版本的jQuery。

这里以爬取博客园当天的新闻数据为例，看看如何使用Abot。

2. 博客园新闻页面

http://news.cnblogs.com/ 这是博客园的新闻首页。可以看到典型的分页显示。比如 http://news.cnblogs.com/n/page/2/ 这是新闻的第二页。

真正的新闻详细页面比如：http://news.cnblogs.com/n/544956/，通过正则表达式可以很轻松的匹配这两种Url 类型。

当然我们可以通过一个 for 循环分别爬取各个page的新闻数据。然后解析出发表于今天的新闻。但是我希望只以http://news.cnblogs.com/ 为种子页面，爬取今天的新闻。

由于博客园新闻分页并不是采用Ajax，对于爬虫而言这非常友好

利用Abot 抓取博客园新闻数据

因此我们定义

code
1 2 3 4 5 6 7 8 9 10 11 12 13 14	`/// <summary>` `/// 种子Url` `/// </summary>` `public` `static` `readonly Uri FeedUrl =` `new` `Uri(@` `"http://news.cnblogs.com/"` `);` `/// <summary>` `///匹配新闻详细页面的正则` `/// </summary>` `public` `static` `Regex NewsUrlRegex =` `new` `Regex(` `"^http://news.cnblogs.com/n/\\d+/$"` `, RegexOptions.Compiled);` `/// <summary>` `/// 匹配分页正则` `/// </summary>` `public` `static` `Regex NewsPageRegex =` `new` `Regex(` `"^http://news.cnblogs.com/n/page/\\d+/$"` `, RegexOptions.Compiled);`

3. 实现

Abot 其实已经对爬虫内部实现封装的非常精巧，使用者只需要设置一些Config 参数和爬取页面的一些事件即可。

code
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31	`public` `static` `IWebCrawler GetManuallyConfiguredWebCrawler()` `{` `CrawlConfiguration config =` `new` `CrawlConfiguration();` `config.CrawlTimeoutSeconds = 0;` `config.DownloadableContentTypes =` `"text/html, text/plain"` `;` `config.IsExternalPageCrawlingEnabled =` `false` `;` `config.IsExternalPageLinksCrawlingEnabled =` `false` `;` `config.IsRespectRobotsDotTextEnabled =` `false` `;` `config.IsUriRecrawlingEnabled =` `false` `;` `config.MaxConcurrentThreads = System.Environment.ProcessorCount;` `config.MaxPagesToCrawl = 1000;` `config.MaxPagesToCrawlPerDomain = 0;` `config.MinCrawlDelayPerDomainMilliSeconds = 1000;` `var crawler =` `new` `PoliteWebCrawler(config, null, null, null, null, null, null, null, null);` `crawler.ShouldCrawlPage(ShouldCrawlPage);` `crawler.ShouldDownloadPageContent(ShouldDownloadPageContent);` `crawler.ShouldCrawlPageLinks(ShouldCrawlPageLinks);` `crawler.PageCrawlStartingAsync += crawler_ProcessPageCrawlStarting;` `//爬取页面后的回调函数` `crawler.PageCrawlCompletedAsync += crawler_ProcessPageCrawlCompletedAsync;` `crawler.PageCrawlDisallowedAsync += crawler_PageCrawlDisallowed;` `crawler.PageLinksCrawlDisallowedAsync += crawler_PageLinksCrawlDisallowed;` `return` `crawler;` `}`

具体调用非常简单：

code
1 2 3 4 5 6 7	`public` `static` `void` `Main(string[] args)` `{` `var crawler = GetManuallyConfiguredWebCrawler();` `var result = crawler.Crawl(FeedUrl);` `System.Console.WriteLine(result.ErrorException);` `}`

最主要的是PageCrawlCompletedAsync，可以在该事件下获取需要的页面数据。

code
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41	`public` `static` `void` `crawler_ProcessPageCrawlCompletedAsync(object sender, PageCrawlCompletedArgs e)` `{` `//判断是否是新闻详细页面` `if` `(NewsUrlRegex.IsMatch(e.CrawledPage.Uri.AbsoluteUri))` `{` `//获取信息标题和发表的时间` `var csTitle = e.CrawledPage.CsQueryDocument.Select(` `"#news_title"` `);` `var linkDom = csTitle.FirstElement().FirstChild;` `var newsInfo = e.CrawledPage.CsQueryDocument.Select(` `"#news_info"` `);` `var dateString = newsInfo.Select(` `".time"` `, newsInfo);` `//判断是不是今天发表的` `if` `(IsPublishToday(dateString.Text()))` `{` `var str = (e.CrawledPage.Uri.AbsoluteUri +` `"\t"` `+ HtmlData.HtmlDecode(linkDom.InnerText) +` `"\r\n"` `);` `System.IO.File.AppendAllText(` `"fake.txt"` `, str);` `}` `}` `}` `/// <summary>` `/// "发布于 2016-05-09 11:25" => true` `/// </summary>` `public` `static` `bool` `IsPublishToday(string str)` `{` `if` `(string.IsNullOrEmpty(str))` `{` `return` `false` `;` `}` `const` `string prefix =` `"发布于"` `;` `int` `index = str.IndexOf(prefix, StringComparison.OrdinalIgnoreCase);` `if` `(index >= 0)` `{` `str = str.Substring(prefix.Length).Trim();` `}` `DateTime date;` `return` `DateTime.TryParse(str, out date) && date.Date.Equals(DateTime.Today);` `}`

为了提升爬取的效果比如在首页爬虫抓取到 http://news.cnblogs.com/n/topiclist/，显然这样的链接我们不需要，那就可以设置爬取的规则：

code
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49	`/// <summary>` `/// 如果是Feed页面或者分页或者详细页面才需要爬取` `/// </summary>` `private` `static` `CrawlDecision ShouldCrawlPage(PageToCrawl pageToCrawl, CrawlContext context)` `{` `if` `(pageToCrawl.IsRoot \|\| pageToCrawl.IsRetry \|\| FeedUrl == pageToCrawl.Uri` `\|\| NewsPageRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri)` `\|\| NewsUrlRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri))` `{` `return` `new` `CrawlDecision {Allow =` `true` `};` `}` `else` `{` `return` `new` `CrawlDecision {Allow =` `false` `, Reason =` `"Not match uri"` `};` `}` `}` `/// <summary>` `/// 如果是Feed页面或者分页或者详细页面才需要爬取` `/// </summary>` `private` `static` `CrawlDecision ShouldDownloadPageContent(PageToCrawl pageToCrawl, CrawlContext crawlContext)` `{` `if` `(pageToCrawl.IsRoot \|\| pageToCrawl.IsRetry \|\| FeedUrl == pageToCrawl.Uri` `\|\| NewsPageRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri)` `\|\| NewsUrlRegex.IsMatch(pageToCrawl.Uri.AbsoluteUri))` `{` `return` `new` `CrawlDecision` `{` `Allow =` `true` `};` `}` `return` `new` `CrawlDecision { Allow =` `false` `, Reason =` `"Not match uri"` `};` `}` `private` `static` `CrawlDecision ShouldCrawlPageLinks(CrawledPage crawledPage, CrawlContext crawlContext)` `{` `if` `(!crawledPage.IsInternal)` `return` `new` `CrawlDecision {Allow =` `false` `, Reason =` `"We dont crawl links of external pages"` `};` `if` `(crawledPage.IsRoot \|\| crawledPage.IsRetry \|\| crawledPage.Uri == FeedUrl` `\|\| NewsPageRegex.IsMatch(crawledPage.Uri.AbsoluteUri))` `{` `return` `new` `CrawlDecision {Allow =` `true` `};` `}` `else` `{` `return` `new` `CrawlDecision {Allow =` `false` `, Reason =` `"We only crawl links of pagination pages"` `};` `}` `}`

最终抓到的数据：

利用Abot 抓取博客园新闻数据

4. 总结

Abot 还是一个非常方便爬虫，如果运用到实际生产环境中，参数配置是首先需要解决的，比如 MaxPagesToCrawl 最大抓取的页面数，还可以设置爬虫内存限制等。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

侯炯 CSDN认证博客专家 CSDN认证企业博客

码龄17年

34: 原创

22万+: 周排名

35万+: 总排名

26万+: 访问

: 等级

2698: 积分

123: 粉丝

17: 获赞

47: 评论

34: 收藏

私信

关注

热门文章

分类专栏

智慧票务系统
便捷购票
出行必备
Android 4篇
Qt 2篇
WebKit 1篇
Widget 5篇
WinCE 1篇
基础知识 1篇
开源软件介绍 3篇
杂谈 5篇
浏览器 3篇
资讯 3篇
HTML 1篇
jquery 1篇
爬虫 5篇

最新评论

Widget技术_SpiderMonkey cross compile（4）
xiazhiyizhi123: arm-linux-gnueabihf-ld: cannot find -lm 最后一步出现，请问有没解决办法[code=cpp] arm-linux-gnueabihf-ld -shared -o Linux_All_DBG.OBJ/libjs.so Linux_All_DBG.OBJ/jsapi.o Linux_All_DBG.OBJ/jsarena.o Linux_All_DBG.OBJ/jsarray.o Linux_All_DBG.OBJ/jsatom.o Linux_All_DBG.OBJ/jsbool.o Linux_All_DBG.OBJ/jscntxt.o Linux_All_DBG.OBJ/jsdate.o Linux_All_DBG.OBJ/jsdbgapi.o Linux_All_DBG.OBJ/jsdhash.o Linux_All_DBG.OBJ/jsdtoa.o Linux_All_DBG.OBJ/jsemit.o Linux_All_DBG.OBJ/jsexn.o Linux_All_DBG.OBJ/jsfun.o Linux_All_DBG.OBJ/jsgc.o Linux_All_DBG.OBJ/jshash.o Linux_All_DBG.OBJ/jsinterp.o Linux_All_DBG.OBJ/jsiter.o Linux_All_DBG.OBJ/jslock.o Linux_All_DBG.OBJ/jslog2.o Linux_All_DBG.OBJ/jslong.o Linux_All_DBG.OBJ/jsmath.o Linux_All_DBG.OBJ/jsnum.o Linux_All_DBG.OBJ/jsobj.o Linux_All_DBG.OBJ/jsopcode.o Linux_All_DBG.OBJ/jsparse.o Linux_All_DBG.OBJ/jsprf.o Linux_All_DBG.OBJ/jsregexp.o Linux_All_DBG.OBJ/jsscan.o Linux_All_DBG.OBJ/jsscope.o Linux_All_DBG.OBJ/jsscript.o Linux_All_DBG.OBJ/jsstr.o Linux_All_DBG.OBJ/j [/code]
无人超市解决方案
qq_44539867: ٩( ö(∩˃o˂∩)♡
html中input标签回车事件分享
傲莉傲: 谢谢
Axis2与Android的Json(Gson)通信传数据
guicaizhou: 记住要把wso2dynamic-response-1.5.mar加到modules.list中这个modules.list是什么东西啊
Axis2与Android的Json(Gson)通信传数据
qq_17102795: 您好我怎么配置不出来啊返回的还是Xml格式请求指导

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。