.net core 爬虫(api)

1.开始

1.1 本文章仅供学习与交流。

1.2 正式开始

本文章的爬虫思路是通过网站上所有书本信息的页面如下图,然后获取其html的信息(如url,书名,作者等等),然后再通过访问书本的详细页面的url查找每章节的信息,再通过章节的url访问其章节的内容(其中书名的信息我通过爬虫存入数据库了,其目的是方便搜索和查看,最主要的原因是我自己yy一下本章教学没有用到持久化)
所有书本信息

1.3 用vs新建一个.net core 的 web api

本人用的是3.1版本的,新建项目的操作无需多说,引用Nuget包如下图(本章内容不需要引用ef的三个包)在这里插入图片描述
新建一个帮助类,其目的是帮助我哦们更加方便获取html文本内容和匹配我们所需要的内容(暂时可以不用细看直接用即可)

using PythonHelper.BQGDtos;
using RestSharp;
using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

namespace PythonHelper
{
   public class HelperMe
    {
        //去除标签
        public static string GetValues(string value, bool isKongGe = false)
        {
            var getvalues = showMatchValue(value, "(<.*?>)");
            foreach (var item in getvalues)
            {
                value = value.Replace(item, "");
            }
            if (isKongGe)
            {
                value = value.Replace(@"&nbsp;", "");
            }
            return value;
        }
        //获取html文本
        public static async Task<string> GetTestOrgan(string GetHost2 = "", string url = "/")
        {
            RestClient restClient = new RestClient(GetHost2);
            RestRequest restRequest = new RestRequest(url);
            var response = await restClient.GetAsync(restRequest);
            var GetTestTxt = GetAllString(response.Content);
            return GetTestTxt;
        }
        //格式化换行和空格
        public static string GetAllString(string fff)
        {
            return fff.Replace(" ", "").Replace("\r\n", "").Replace("\r", "").Replace("\n", "");
        }
        //匹配所有的匹配项,并且返回匹配的结果而且是list<string>
        public static List<string> showMatchValue(string text, string expr)
        {
            Console.WriteLine("The Expression: " + expr);
            MatchCollection mc = Regex.Matches(text, expr);
            List<string> ass = new List<string>();
            foreach (Match m in mc)
            {
                //Console.WriteLine(m.Groups[1]);
                //Console.WriteLine(m.Groups[2]);
                ass.Add(m.Groups[1].ToString());
            }
            return ass;
        }
        /// <summary>
        /// 循环提取最后一层正则表达式匹配文本
        /// </summary>
        /// <param name="Url">地址|文本</param>
        /// <param name="expr">公式列表</param>
        /// <param name="IsUrl">是否是地址</param>
        /// <returns></returns>
        public static async Task<List<string>> GetListJiFirstStep(string Url, List<string> expr, bool IsUrl = true)
        {
            var txts = "";
            if (IsUrl)
            {
                txts = await GetTestOrgan(Url);
            }
            else
            {
                txts = Url;
            }
            for (int i = 0; i < expr.Count; i++)
            {
                if (i + 1 == expr.Count)
                {
                    return showMatchValue(txts, expr[i]);
                }
                else
                {
                    txts = showMatchValue(txts, expr[i])[0];
                }
            }
            return new List<string>();
        }
        /// <summary>
        /// 返回一个集数的列表对象Dto
        /// </summary>
        /// <param name="txt">文本</param>
        /// <param name="expr">名</param>
        /// <param name="expr2">地址</param>
        /// <returns></returns>
        public static async Task<List<CollectionDto>> GetListJiSecondStep(List<string> txt, string expr, string expr2)
        {
            List<CollectionDto> GetDtos = new List<CollectionDto>();
            foreach (var item in txt)
            {
                CollectionDto Ones = new CollectionDto();
                Ones.CollectionDesc = showMatchValue(item, expr)[0];
                Ones.GetHref = showMatchValue(item, expr2)[0];
                GetDtos.Add(Ones);
            }
            return GetDtos;
        }
        /// <summary>
        /// 
        /// </summary>
        /// <param name="Url">请求的时候地址</param>
        /// <param name="expr">第一个选出公用的txt</param>
        /// <param name="expr2">选出文本的正则表达式</param>
        /// <param name="expr3">选出地址的正则表达式</param>
        /// <returns></returns>
        public static async Task<List<CollectionDto>> GetNovelJi(string Url, List<string> expr, string expr2, string expr3, bool IsUrl = true)
        {
            var texts = await GetListJiFirstStep(Url, expr, IsUrl);
            return await GetListJiSecondStep(texts, expr2, expr3);
        }
        /// <summary>
        /// 获取文本
        /// </summary>
        /// <param name="url"></param>
        /// <param name="expr"></param>
        /// <returns></returns>
        public static async Task<string> GetJiTxt(string url, string expr, bool IsClear, bool IsKongGe)
        {
            var GetTxt = await GetTestOrgan(url);
            var GetBookTxt = showMatchValue(GetTxt, expr)[0];
            if (IsClear)
            {
                GetBookTxt = GetValues(GetBookTxt, IsKongGe);
            }
            return GetBookTxt;
        }
    }
}

1.4 分页的dto和输出dto

直接新建类,更改一下名字和下面给出代码的类名相同即可

using System;
using System.Collections.Generic;
using System.Linq;
using System.Threading.Tasks;

namespace PythonHelper
{
    public class TableDto<T>
    {
        public TableDto() {
            data = new List<T>();
        }
        public int code { get; set; }
        public string msg { get; set; }
        public int count { get; set; }
        public List<T> data { get; set; }
    }
}

using System;
using System.Collections.Generic;
using System.Text;

namespace PythonHelper.BQGDtos
{
    public  class CollectionDto
    {
        public string NovelId { get; set; }
        public string CollectionDesc { get; set; }
        public string CollectionNo { get; set; }
        public bool IsDelete { get; set; }
        public DateTime ReportDate { get; set; }
        public string GetHref { get; set; }
    }
}

1.5 api代码

PNewHelper是帮助类自行更改自己命名的帮助类

        [HttpPost]
        public async Task<TableDto<CollectionDto>> GetNovalCollectionAll(int page,int limit,string  url) {
            try
            {
             //PNewHelper是帮助类自行更改自己命名的帮助类
                    GetInfos = await PNewHelper.GetNovelJi(url, new List<string>() { "<divid=\"list\">(.*?)</div>"
                    , "<dd>(.*?)</dd>" },
   "<a.*?>(.*?)</a>", "<ahref=\'(.*?)\'>.*?</a>"
   );
            }
            var getDatas = GetInfos.Skip((page == 0 ? 0 : (page - 1)* limit)).Take(limit).ToList();
            return new TableDto<CollectionDto>()
            {
                code = 0,
                msg = "",
                data = getDatas,
                count = GetInfos.Count
            };
        
            catch (Exception)
            {

                throw;
            }
        }
           [HttpPost]
        public async Task<string> GetCollecOfTxt(string url,string expr,bool IsClear=false, bool IsKongGe = false) {
            try
            {

          
            if (string.IsNullOrEmpty(expr)) {
                expr = "<divid=\"content\">(.*?)</div>";
            }
            if (string.IsNullOrEmpty(PNewHelper.showMatch(url,"www"))) {
                url = "https://www.xbiquge.la"+url;
            }
            return await PNewHelper.GetJiTxt(url, expr, IsClear, IsKongGe);
            }
            catch (Exception)
            {

                throw;
            }
        }

1.6 测试打开swagger测试

注意:自己按照顺序来看啊
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
.Net中有不少开源的爬虫工具,abot就是其中之一。Abot是一个开源的.net爬虫,速度快,易于使用和扩展。项目的地址是 https://github.com/sjdirect/abot 对于爬取的Html,使用的分析工具是CsQuery, CsQuery可以算是.net中实现的Jquery, 可以使用类似Jquery中的方法来处理html页面。CsQuery的项目地址是https://github.com/afeiship/CsQuery一. 对Abot爬虫配置1. 通过属性设置先创建config对象,然后设置config中的各项属性:CrawlConfiguration crawlConfig = new CrawlConfiguration();  crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;  crawlConfig.MaxPagesToCrawl = 1000;  crawlConfig.UserAgentString = "abot v1.0 http://code.google.com/p/abot";  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111");  crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue2", "2222");2. 通过App.config配置直接从配置文件中读取,但是也任然可以在修改各项属性:CrawlConfiguration crawlConfig = AbotConfigurationSectionHandler.LoadFromXml().Convert(); crawlConfig.CrawlTimeoutSeconds = 100;  crawlConfig.MaxConcurrentThreads = 10;3. 应用配置到爬虫对象PoliteWebCrawler crawler = new PoliteWebCrawler(); PoliteWebCrawler crawler = new PoliteWebCrawler(crawlConfig, null, null, null, null, null, null, null);二,使用爬虫,注册各种事件爬虫中主要是4个事件, 页面爬取开始、页面爬取失败、页面不允许爬取事件、页面中的链接不允许爬取事件。下面是示例代码:crawlergeCrawlStartingAsync  = crawler_ProcessPageCrawlStarting;//单个页面爬取开始  crawler.PageCrawlCompletedAsync  = crawler_ProcessPageCrawlCompleted;//单个页面爬取结束  crawler.PageCrawlDisallowedAsync  = crawler_PageCrawlDisallowed;//页面不允许爬取事件  crawler.PageLinksCrawlDisallowedAsync  = crawler_PageLinksCrawlDisallowed;//页面链接不允许爬取事件 void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("About to crawl link {0} which was found on page {1}", pageToCrawl.Uri.AbsoluteUri, pageToCrawl.ParentUri.AbsoluteUri); } void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)     Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);   else     Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);   if (string.IsNullOrEmpty(crawledPage.Content.Text))     Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri); } void crawler_PageLinksCrawlDisallowed(object sender, PageLinksCrawlDisallowedArgs e) {   CrawledPage crawledPage = e.CrawledPage;   Console.WriteLine("Did not crawl the links on page {0} due to {1}", crawledPage.Uri.AbsoluteUri, e.DisallowedReason); } void crawler_PageCrawlDisallowed(object sender, PageCrawlDisallowedArgs e) {   PageToCrawl pageToCrawl = e.PageToCrawl;   Console.WriteLine("Did not crawl page {0} due to {1}", pageToCrawl.Uri.AbsoluteUri, e.DisallowedReason); }三, 为爬虫添加多个附加对象Abot应该是借鉴了Asp.net MVC中的ViewBag, 也为爬虫对象设置了对象级别的CrwalBag和Page级别的ViewBag.PoliteWebCrawler crawler = new PoliteWebCrawler(); crawler.CrawlBag.MyFoo1 = new Foo();//对象级别的 CrwalBagcrawler.CrawlBag.MyFoo2 = new Foo(); crawler.PageCrawlStartingAsync  = crawler_ProcessPageCrawlStarting; ...void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e) {   //获取CrwalBag中的对象   CrawlContext context = e.CrawlContext;    context.CrawlBag.MyFoo1.Bar();  //使用CrwalBag    context.CrawlBag.MyFoo2.Bar();      //使用页面级别的    PageBag  e.PageToCrawl.PageBag.Bar = new Bar(); }四,启动爬虫启动爬虫非常简单,调用Crawl方法,指定好开始页面,就可以了。CrawlResult result = crawler.Crawl(new Uri("  if (result.ErrorOccurred)         Console.WriteLine("Crawl of {0} completed with error: {1}",          result.RootUri.AbsoluteUri, result.ErrorException.Message         );          else         Console.WriteLine("Crawl of {0} completed without error.", result.RootUri.AbsoluteUri);五,介绍CsQuery在PageCrawlCompletedAsync事件中, e.CrawledPage.CsQueryDocument就是一个CsQuery对象。这里介绍一下CsQuery在分析Html上的优势:cqDocument.Select(".bigtitle > h1")这里的选择器的用法和Jquery完全相同,这里是取class为.bittitle下的h1标签。如果你能熟练的使用Jquery,那么上手CsQuery会非常快和容易。 标签:网络爬虫  网络蜘蛛

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值