使用实体框架核心和C#创建具有Dotnet核心的自定义Web爬虫程序

最新推荐文章于 2024-06-29 22:35:03 发布

寒冰屋

最新推荐文章于 2024-06-29 22:35:03 发布

阅读量353

点赞数

分类专栏： ASP.NET CORE CSharp.NET 架构及框架文章标签： Web爬虫 DOTNET CORE EF CORE

CSharp.NET 同时被 3 个专栏收录

1243 篇文章 59 订阅

订阅专栏

ASP.NET CORE

1135 篇文章 55 订阅

订阅专栏

架构及框架

634 篇文章 16 订阅

订阅专栏

eShopOnWeb Microsoft 项目使用示例

Visual Studio解决方案的项目结构

DotnetCrawler.Core

DotnetCrawler.Data

DotnetCrawler.Downloader

DotnetCrawler.Processor

DotnetCrawler.Pipeline

DotnetCrawler.Scheduler

DotnetCrawler.Sample

结论

您可以在这里找到GitHub存储库：DotnetCrawler

介绍

在本文中，我们将实现一个自定义Web爬虫，并在eBay电子商务网站上使用此爬虫，该网站正在抓取eBay iphone页面并使用Entity Framework Core在我们的SQL Server数据库中插入此记录。一个示例数据库模式将是Microsoft eShopWeb应用程序，我们将eBay记录插入Catalog表中。

背景

大多数Web抓取和Web爬网程序框架存在于不同的基础结构中。但是当涉及到dotnet环境时，你没有这样的选择，你无法找到适合你的自定义要求的工具。

在开始开发新的爬虫之前，我正在搜索下面列出的用C＃编写的工具：

Abot是一个很好的爬虫，但如果你需要实现一些自定义的东西，它没有免费的支持，也没有足够的文档。
DotnetSpider拥有非常好的设计，其架构使用与Scrapy和WebMagic等最常用的爬虫相同的架构。但是文档是中文的，所以即使我用Google翻译将其翻译成英文，也很难学会如何实现自定义方案。此外，我想将爬虫输出插入到SQL Server数据库，但它无法正常工作，我在GitHub上打开了一个问题，但还没有人回复。

我没有其他选择在有限的时间内解决我的问题。我不想花更多的时间来研究更多的爬虫基础设施。我决定编写自己的工具。

爬虫的基础知识

搜索大量存储库让我有了创建新存储库的想法。因此，爬虫架构的主要模块几乎是相同的，所有这些模块全部都是爬虫生态的大蓝图，您可以在下面看到：

Crawler的主要模块

此图显示了应包含在常见爬网程序项目中的主要模块。因此，我在Visual Studio解决方案下将这些模块添加为单独的项目。

下面列出了这些模块的基本说明：

Downloader; 负责下载给定的URL到本地文件夹或临时文件并返回到htmlnode处理器的对象。
Processors; 负责处理给定的HTML节点，提取和查找预期的特定节点，使用这些处理过的数据加载实体。并将此处理器返回管道。
Pipelines; 负责将实体导出到使用应用程序的不同数据库。
Scheduler; 负责调度爬虫命令以提供友好的抓取操作。

一步一步开发DotnetCrawler

根据上述模块，我们如何使用Crawler类？让我们试着想象一下，然后一起实现。

static async Task MainAsync(string[] args)
{
    var crawler = new DotnetCrawler<Catalog>()
                         .AddRequest(new DotnetCrawlerRequest 
                         { Url = "https://www.ebay.com/b/Apple-iPhone/9355/bn_319682", 
                           Regex = @".*itm/.+", TimeOut = 5000 })
                         .AddDownloader(new DotnetCrawlerDownloader 
                         { DownloderType = DotnetCrawlerDownloaderType.FromMemory, 
                           DownloadPath = @"C:\DotnetCrawlercrawler\" })
                         .AddProcessor(new DotnetCrawlerProcessor<Catalog> { })
                         .AddPipeline(new DotnetCrawlerPipeline<Catalog> { });

    await crawler.Crawle();
}

如您所见，DotnetCrawler<TEntity>类具有泛型实体类型，该类型将用作DTO对象并保存数据库。Catalog是一个泛型类型，DotnetCrawler也是由DotnetCrawler.Data项目中的EF.Core scaffolding命令生成的。这个我们稍后会看到。

DotnetCrawler对象通过使用Builder Design Pattern配置为了加载它们的配置。此外，这种技术命名为流畅的设计。

DotnetCrawler 使用以下方法配置：

AddRequest; 这包括crawler目标的主要网址。此外，我们可以为目标网址定义过滤器，旨在集中目标部分。
AddDownloader; 这包括下载程序类型，如果下载类型为“ FromFile”，则表示下载到本地文件夹，然后还需要下载文件夹的路径。其他选项是“ FromMemory”和“ FromWeb”，它们都下载目标网址但不保存。
AddProcessor; 此方法加载新的默认处理器，它基本上提供了提取HTML页面和定位一些HTML标记。由于可扩展的设计，您可以创建自己的处理器。
AddPipeline; 此方法加载新的默认管道，其基本上提供将实体保存到数据库中。当前管道提供使用Entity Framework Core连接SqlServer。由于可扩展的设计，您可以创建自己的管道。

所有这些配置都应存储在主类中; DotnetCrawler.cs。

public class DotnetCrawler<TEntity> : IDotnetCrawler where TEntity : class, IEntity
    {
        public IDotnetCrawlerRequest Request { get; private set; }
        public IDotnetCrawlerDownloader Downloader { get; private set; }
        public IDotnetCrawlerProcessor<TEntity> Processor { get; private set; }
        public IDotnetCrawlerScheduler Scheduler { get; private set; }
        public IDotnetCrawlerPipeline<TEntity> Pipeline { get; private set; }

        public DotnetCrawler()
        {
        }

        public DotnetCrawler<TEntity> AddRequest(IDotnetCrawlerRequest request)
        {
            Request = request;
            return this;
        }

        public DotnetCrawler<TEntity> AddDownloader(IDotnetCrawlerDownloader downloader)
        {
            Downloader = downloader;
            return this;
        }

        public DotnetCrawler<TEntity> AddProcessor(IDotnetCrawlerProcessor<TEntity> processor)
        {
            Processor = processor;
            return this;
        }

        public DotnetCrawler<TEntity> AddScheduler(IDotnetCrawlerScheduler scheduler)
        {
            Scheduler = scheduler;
            return this;
        }

        public DotnetCrawler<TEntity> AddPipeline(IDotnetCrawlerPipeline<TEntity> pipeline)
        {
            Pipeline = pipeline;
            return this;
        }        
    }

据此，在完成必要的配置之后，异步触发crawler.Crawle ()方法。此方法通过分别导航到下一个模块，从而完成其操作。

eShopOnWeb Microsoft 项目使用示例

该库还包括名称为DotnetCrawler.Sample的示例项目。基本上，在这个示例项目中，实现了Microsoft eShopOnWeb存储库。你可以在这里找到这个存储库。在这个示例存储库中实现了电子商务项目，当您使用EF.Core 代码优先方法生成时，它具有“Catalog”表。因此，在使用爬虫之前，您应该使用真实数据库下载并运行此项目。要执行此操作，请参阅此信息。（如果您已有数据库，则可以继续使用数据库。）

我们在DotnetCrawler类中将“Catalog”表作为泛型类型传递。

var crawler = new DotnetCrawler<Catalog>()

Catalog是一个DotnetCrawler的泛型类型，也是由DotnetCrawler.Data项目中的EF.Core scaffolding命令生成的。DotnetCrawler.Data项目安装EF.Core nuget 包。在运行此命令之前，.Data项目应下载以下nuget包。

运行EF命令所需的包

现在，我们的软件包已准备就绪，可以在软件包管理器控制台中运行EF命令并选择DotnetCrawler.Data项目。

Scaffold-DbContext "Server=(localdb)\mssqllocaldb;Database=Microsoft.eShopOnWeb.CatalogDb;
Trusted_Connection=True;" Microsoft.EntityFrameworkCore.SqlServer -OutputDir Models

通过此命令DotnetCrawler.Data项目创建了Model文件夹。此文件夹包含从eShopOnWeb Microsoft的示例生成的所有实体和上下文对象。

eShopOnWeb实体

之后，您需要使用自定义爬虫属性配置您的实体类，以便从eBay iphone的网页了解爬虫蜘蛛和加载实体字段;

[DotnetCrawlerEntity(XPath = "//*[@id='LeftSummaryPanel']/div[1]")]
public partial class Catalog : IEntity
{
    public int Id { get; set; }
    [DotnetCrawlerField(Expression = "1", SelectorType = SelectorType.FixedValue)]
    public int CatalogBrandId { get; set; }
    [DotnetCrawlerField(Expression = "1", SelectorType = SelectorType.FixedValue)]
    public int CatalogTypeId { get; set; }        
    public string Description { get; set; }
    [DotnetCrawlerField(Expression = "//*[@id='itemTitle']/text()", SelectorType = SelectorType.XPath)]
    public string Name { get; set; }
    public string PictureUri { get; set; }
    public decimal Price { get; set; }

    public virtual CatalogBrand CatalogBrand { get; set; }
    public virtual CatalogType CatalogType { get; set; }
}

使用此代码，基本上，crawler请求给定url并尝试查找为目标Web url定义xpath地址的给定属性。

在这些定义之后，最后我们能够运行crawler.Crawle()异步方法。在该方法中，它分别执行以下操作。

它访问给定的请求对象中的url并查找其中的链接。如果Regex的属性值已满，则会相应地应用过滤。
它在互联网上找到这些网址，并通过应用不同的方法下载。
处理下载的网页以产生所需数据。
最后，这些数据将使用EF.Core保存到数据库中。

public async Task Crawle()
{
var linkReader = new DotnetCrawlerPageLinkReader(Request);
var links = await linkReader.GetLinks(Request.Url, 0);

foreach (var url in links)
{
var document = await Downloader.Download(url);
var entity = await Processor.Process(document);
await Pipeline.Run(entity);
}
}

Visual Studio解决方案的项目结构

因此，您可以从使用空白解决方案在Visual Studio上创建新项目开始。之后，您可以添加.NET核心类库项目，如下图所示：

只有示例项目才是.NET Core控制台应用程序。我将逐一解释此解决方案中的所有项目。

DotnetCrawler.Core

该项目包括主要的爬虫类。它只有一个定义Crawle方法的interface和interface的实现。因此，您可以在此项目上创建自定义爬网程序。

DotnetCrawler.Data

该项目包括Attributes，Models和Repository文件夹。我们应该深入研究这些文件夹。

Models文件夹; 应包括由Entity Framework Core生成的Entity类。因此，您应该将数据库表实体放在此文件夹中，此文件夹也应该是Entity Framework Core的Context对象。现在这个文件夹有eShopOnWeb微软的数据库示例。
Attributes文件夹; 包括爬虫程序特性，用于获取有关已爬网页的xpath信息。有两个类，DotnetCrawlerEntityAttribute.cs用于实体特性，DotnetCrawlerFieldAttribute.cs用于属性特性。这些特性应该在EF.Core实体类上。您可以在下面的代码块中看到特性的示例用法：

[DotnetCrawlerEntity(XPath = "//*[@id='LeftSummaryPanel']/div[1]")]
public partial class Catalog : IEntity
{
public int Id { get; set; }
[DotnetCrawlerField(Expression = "//*[@id='itemTitle']/text()", SelectorType = SelectorType.XPath)]
public string Name { get; set; }
}

第一个xpath用于在开始抓取时定位该HTML节点。第二个用于获取特定HTML节点中的真实数据信息。在此示例中，此路径从eBay检索iphone名称。

Repository文件夹; 包括EF.Core实体和数据库上下文的存储库设计模式实现。我用这个资源的存储库模式。为了使用存储库模式，我们必须为所有EF.Core实体申请IEntity interface。您可以看到上述代码，Catalog类实现了IEntity interface。所以爬虫的泛型类型应该从IEntity中实现。

DotnetCrawler.Downloader

该项目包括主要爬虫类中的下载算法。根据下载程序DownloadType可以应用不同类型的下载方法。此外，您可以在此处开发自己的自定义下载程序，以实现您的要求。为了提供这些下载功能，这个项目应该加载HtmlAgilityPack和HtmlAgilityPack.CssSelector.NetCore包;

下载方法的主要功能是在DotnetCrawlerDownloader.cs中——DownloadInternal()方法：

private async Task<HtmlDocument> DownloadInternal(string crawlUrl)
{
    switch (DownloderType)
    {
        case DotnetCrawlerDownloaderType.FromFile:
            using (WebClient client = new WebClient())
            {
                await client.DownloadFileTaskAsync(crawlUrl, _localFilePath);
            }
            return GetExistingFile(_localFilePath);

        case DotnetCrawlerDownloaderType.FromMemory:
            var htmlDocument = new HtmlDocument();
            using (WebClient client = new WebClient())
            {
                string htmlCode = await client.DownloadStringTaskAsync(crawlUrl);
                htmlDocument.LoadHtml(htmlCode);
            }
            return htmlDocument;

        case DotnetCrawlerDownloaderType.FromWeb:
            HtmlWeb web = new HtmlWeb();
            return await web.LoadFromWebAsync(crawlUrl);
    }

    throw new InvalidOperationException("Can not load html file from given source.");
}

此方法根据下载类型下载目标网址; 下载本地文件，下载临时文件或不直接从网上下载。

此外，爬虫的主要功能之一是页面访问算法。所以在这个项目中，在DotnetCrawlerPageLinkReader.cs类中应用页面访问算法和递归方法。您可以通过给出depth参数来使用此页面访问算法。我正在使用此资源来解决此问题。

public class DotnetCrawlerPageLinkReader
{
    private readonly IDotnetCrawlerRequest _request;
    private readonly Regex _regex;

    public DotnetCrawlerPageLinkReader(IDotnetCrawlerRequest request)
    {
        _request = request;
        if (!string.IsNullOrWhiteSpace(request.Regex))
        {
            _regex = new Regex(request.Regex);
        }
    }

    public async Task<IEnumerable<string>> GetLinks(string url, int level = 0)
    {
        if (level < 0)
            throw new ArgumentOutOfRangeException(nameof(level));

        var rootUrls = await GetPageLinks(url, false);

        if (level == 0)
            return rootUrls;

        var links = await GetAllPagesLinks(rootUrls);

        --level;
        var tasks = await Task.WhenAll(links.Select(link => GetLinks(link, level)));
        return tasks.SelectMany(l => l);
    }

    private async Task<IEnumerable<string>> GetPageLinks(string url, bool needMatch = true)
    {
        try
        {
            HtmlWeb web = new HtmlWeb();
            var htmlDocument = await web.LoadFromWebAsync(url);

            var linkList = htmlDocument.DocumentNode
                               .Descendants("a")
                               .Select(a => a.GetAttributeValue("href", null))
                               .Where(u => !string.IsNullOrEmpty(u))
                               .Distinct();

            if (_regex != null)
                linkList = linkList.Where(x => _regex.IsMatch(x));

            return linkList;
        }
        catch (Exception exception)
        {
            return Enumerable.Empty<string>();
        }
    }

    private async Task<IEnumerable<string>> GetAllPagesLinks(IEnumerable<string> rootUrls)
    {
        var result = await Task.WhenAll(rootUrls.Select(url => GetPageLinks(url)));

        return result.SelectMany(x => x).Distinct();
    }
}

DotnetCrawler.Processor

该项目提供将下载的Web数据数据转换为EF.Core实体。此需求通过使用反射来解决泛型类型的 get或set成员。在DotnetCrawlerProcessor.cs类中，实现crawler的当前处理器。此外，您可以在此处开发自己的自定义处理器，以实现您的要求。

public class DotnetCrawlerProcessor<TEntity> : IDotnetCrawlerProcessor<TEntity> 
                where TEntity : class, IEntity
{
    public async Task<IEnumerable<TEntity>> Process(HtmlDocument document)
    {
        var nameValueDictionary = GetColumnNameValuePairsFromHtml(document);

        var processorEntity = ReflectionHelper.CreateNewEntity<TEntity>();
        foreach (var pair in nameValueDictionary)
        {
            ReflectionHelper.TrySetProperty(processorEntity, pair.Key, pair.Value);
        }

        return new List<TEntity>
        {
            processorEntity as TEntity
        };
    }

    private static Dictionary<string, object> GetColumnNameValuePairsFromHtml(HtmlDocument document)
    {
        var columnNameValueDictionary = new Dictionary<string, object>();

        var entityExpression = ReflectionHelper.GetEntityExpression<TEntity>();
        var propertyExpressions = ReflectionHelper.GetPropertyAttributes<TEntity>();

        var entityNode = document.DocumentNode.SelectSingleNode(entityExpression);

        foreach (var expression in propertyExpressions)
        {
            var columnName = expression.Key;
            object columnValue = null;
            var fieldExpression = expression.Value.Item2;

            switch (expression.Value.Item1)
            {
                case SelectorType.XPath:
                    var node = entityNode.SelectSingleNode(fieldExpression);
                    if (node != null)
                        columnValue = node.InnerText;
                    break;
                case SelectorType.CssSelector:
                    var nodeCss = entityNode.QuerySelector(fieldExpression);
                    if (nodeCss != null)
                        columnValue = nodeCss.InnerText;
                    break;
                case SelectorType.FixedValue:
                    if (Int32.TryParse(fieldExpression, out var result))
                    {
                        columnValue = result;
                    }
                    break;
                default:
                    break;
            }
            columnNameValueDictionary.Add(columnName, columnValue);
        }

        return columnNameValueDictionary;
    }
}

DotnetCrawler.Pipeline

该项目为处理器模块中的给定实体对象提供insert数据库。使用EF.Core对象关系映射框架插入数据库。在DotnetCrawlerPipeline.cs类中实现了当前的crawler管道。您也可以在此处开发自己的自定义管道，以实现您的要求。（不同数据库类型的持久性）。

public class DotnetCrawlerPipeline<TEntity> : IDotnetCrawlerPipeline<TEntity> 
               where TEntity : class, IEntity
{
    private readonly IGenericRepository<TEntity> _repository;

    public DotnetCrawlerPipeline()
    {
        _repository = new GenericRepository<TEntity>();
    }

    public async Task Run(IEnumerable<TEntity> entityList)
    {
        foreach (var entity in entityList)
        {
            await _repository.CreateAsync(entity);
        }
    }
}

DotnetCrawler.Scheduler

此项目为爬网程序的爬取操作提供调度作业。此需求未实现默认解决方案，因此您可以在此处开发自己的自定义处理器以实现您的要求。您可以使用Quartz或Hangfire进行后台作业。

DotnetCrawler.Sample

该项目证明了使用DotnetCrawler从eBay电子商务网站插入新的iPhone到Catalog表中。因此，您可以将启动项目设置为DotnetCrawler.Sample并调试我们在本文上面部分中解释的模块。

Catalog 表列表，Crawler插入的最后10条记录

结论

该库的设计与其他强大的爬虫库（如WebMagic和Scrapy）一样，但是建立在体系结构之上，通过应用域驱动设计和面向对象原则等最佳实践，重点关注其易扩展性。因此，您可以轻松实现自定义需求，并使用这个简单、轻量级的Web爬行/抓取库的默认功能，以实现基于dotnet核心的Entity Framework Core输出。