C#开源爬虫NCrawler源代码解读以及将其移植到python3.2（2）

最新推荐文章于 2024-01-31 16:06:52 发布

爱知菜

最新推荐文章于 2024-01-31 16:06:52 发布

阅读量1.9k

点赞数

分类专栏： Python 数据挖掘/机器学习 .NET

本文链接：https://blog.csdn.net/rav009/article/details/9184681

版权

Python 同时被 3 个专栏收录

66 篇文章 0 订阅

订阅专栏

数据挖掘/机器学习

51 篇文章 1 订阅

订阅专栏

.NET

26 篇文章 0 订阅

订阅专栏

在上一篇中,我们提到了管道这个概念(pipeline),其实所有的管道都实现了同一接口叫

	public interface IPipelineStep
	{
		void Process(Crawler crawler, PropertyBag propertyBag);
	}

所有爬到的网址都将被构造 Crawler 时通过构造函数注入的管道处理。

一般来说第一个处理的管道是 HtmlDocumentProcessor，它负责解析网页。那么其实现接口的具体函数就很值得一看。

在函数的开始处NCrawler使用了AOP技术做了一次参数的非空检查，使用的AOP框架是轻量级的，叫 AspectF。

			AspectF.Define.
				NotNull(crawler, "crawler").
				NotNull(propertyBag, "propertyBag");

紧接着函数进行了一系列操作,把HTML的文本,包括 title , meta 提取出来,找出其中 links ,然后开启循环针对里面每个 link 整形重新添加到爬虫的等待爬行的URL的序列,代码如下:

			foreach (string link in links.Links.Union(links.References))
			{
				if (link.IsNullOrEmpty())
				{
					continue;
				}

				string decodedLink = ExtendedHtmlUtility.HtmlEntityDecode(link);
				string normalizedLink = NormalizeLink(baseUrl, decodedLink);
				if (normalizedLink.IsNullOrEmpty())
				{
					continue;
				}

				crawler.AddStep(new Uri(normalizedLink), propertyBag.Step.Depth + 1,
					propertyBag.Step, new Dictionary<string, object>
						{
							{Resources.PropertyBagKeyOriginalUrl, link},
							{Resources.PropertyBagKeyOriginalReferrerUrl, propertyBag.ResponseUri}
						});
			}

爱知菜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
C#开源爬虫NCrawler源代码解读以及将其移植到python3.2（2）

在上一篇中,我们提到了管道这个概念(pipeline),其实所有的管道都实现了同一接口叫 public interface IPipelineStep { void Process(Crawler crawler, PropertyBag propertyBag); }所有爬到的网址都将被构造 Crawler 时通过构造函数注入的管道处理。一般来说第一个处理的管道是
复制链接

扫一扫