AbotX爬虫框架的使用

最新推荐文章于 2024-06-23 09:38:17 发布

嗯啦啦啦嗯

最新推荐文章于 2024-06-23 09:38:17 发布

阅读量709

点赞数

文章标签： Abot C# .NET

本文链接：https://blog.csdn.net/qq_38613453/article/details/82890225

版权

AbotX爬虫框架是一个非常好用的框架，他是Abot框架的拓展
下面就介绍下使用方法吧
首先下载DLL

下载完成之后

CrawlerX crawler = new CrawlerX(new CrawlConfigurationX()
        {
            IsJavascriptRenderingEnabled = true,
            JavascriptRenderingWaitTimeInMilliseconds = 10000,          //等待js处理 
            MaxConcurrentSiteCrawls = 1,      //一次只抓取一个站点
            MaxConcurrentThreads = 20,          //逻辑处理器计数以避免cpu大败
        });

这个配置还有更多属性

//连接超时
                    config.CrawlTimeoutSeconds = 0;
                    //下载类容格式
                    config.DownloadableContentTypes = "text/html, text/plain";
                    //是否爬扩展页面
                    config.IsExternalPageCrawlingEnabled = false;
                    //是否爬扩展连接
                    config.IsExternalPageLinksCrawlingEnabled = false;
                    //是否爬的检索到rebots.txt文件，可以要个
                    config.IsRespectRobotsDotTextEnabled = true;
                    //是否多重复爬Uri,一般为false,但我估计太大，内存受不了，应为内存会存是否爬过的数据
                    config.IsUriRecrawlingEnabled = false;
                    //请求的最大线程，看IIS的支持，太大服务器受不了
                    config.MaxConcurrentThreads = System.Environment.ProcessorCount;
                    //最大爬的页码连接，如果为0就没有限制，看需求大小
                    config.MaxPagesToCrawl = 1000;
                    //单页面最大的爬页面量，如果为0就没有限制，基本都为0
                    config.MaxPagesToCrawlPerDomain = 0;
                    //每爬一个页面等好多毫秒，太快CUP会受不了
                    config.MinCrawlDelayPerDomainMilliSeconds = 1000;

crawler.CrawlAsync(new Uri("URL地址"));这是异步爬取
 
crawler.Crawl(new Uri("URL地址"));这是同步爬取

我的博客地址：Wy博客

最后附上Abot的Github地址

嗯啦啦啦嗯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AbotX爬虫框架的使用

AbotX爬虫框架是一个非常好用的框架，他是Abot框架的拓展下面就介绍下使用方法吧首先下载DLL 下载完成之后CrawlerX crawler = new CrawlerX(new CrawlConfigurationX(){IsJavascriptRenderingEnabled = true,...
复制链接

扫一扫