AngleSharp：5分钟掌握C#的HTML解析超能力！万字详解+企业级实战代码-CSDN博客

本文链接：https://blog.csdn.net/2401_88677290/article/details/147375956

一、AngleSharp：C#的HTML解析革命

1.1 传统HTML解析的“血泪史”

// 危险示例：HtmlAgilityPack的“低效操作”
var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(htmlContent);
var nodes = htmlDoc.DocumentNode.SelectNodes("//div[@class='product']");
foreach (var node in nodes)
{
    var price = node.SelectSingleNode(".//span[@class='price']").InnerText;
    // ...低效的XPath操作
}

核心痛点：

XPath难写：复杂查询需记忆大量路径语法。
性能低下：DOM树遍历效率低，处理大型文档卡顿。
标准不兼容：无法直接使用CSS选择器和DOM API。

1.2 AngleSharp的“量子跃迁”

// AngleSharp基础用法（标准DOM操作）
using AngleSharp;
using AngleSharp.Html.Parser;

public class AngleSharpExample
{
    public static async Task Main()
    {
        // ① 配置解析器（支持异步加载）
        var config = Configuration.Default
            .WithDefaultLoader()
            .WithCss();
        var context = BrowsingContext.New(config);

        // ② 异步获取并解析网页
        var document = await context.OpenAsync("https://example.com");
        
        // ③ 使用CSS选择器查询元素
        var productTitles = document.QuerySelectorAll(".product__title");
        foreach (var title in productTitles)
        {
            Console.WriteLine(title.TextContent); // ④ 直接获取文本内容
        }
    }
}

注释说明：

配置扩展：① WithDefaultLoader()启用网络加载，WithCss()支持CSS解析。
异步解析：② BrowsingContext实现高效异步加载，避免阻塞主线程。
标准API：④ TextContent直接获取文本，无需手动拼接。

二、AngleSharp的“核心武器库”

2.1 异步解析：让网页加载“飞起来”

// 异步网页抓取（企业级代码）
public class AsyncWebScraper
{
    private readonly HttpClient _httpClient;
    private readonly BrowsingContext _context;

    public AsyncWebScraper()
    {
        var config = Configuration.Default
            .WithDefaultLoader(new HttpClientHandler { UseProxy = false })
            .WithCss();
        _context = BrowsingContext.New(config);
        _httpClient = new HttpClient();
    }

    public async Task<string> GetPageContent(string url)
    {
        try
        {
            var document = await _context.OpenAsync(url);
            return document.DocumentElement.OuterHtml;
        }
        catch (Exception ex)
        {
            Console.WriteLine($"Error fetching {url}: {ex.Message}");
            return null;
        }
    }

    public async Task<List<string>> ExtractProductTitles(string url)
    {
        var document = await _context.OpenAsync(url);
        var titles = document.QuerySelectorAll(".product__title")
            .Select(e => e.TextContent.Trim())
            .ToList();
        return titles;
    }
}

注释说明：

异常处理：try-catch捕获网络错误，避免程序崩溃。
链式操作：Select直接转换为List<string>，减少中间变量。

2.2 DOM操作：像写JavaScript一样丝滑

// 动态修改HTML（企业级案例）
public class HtmlManipulator
{
    public static void ModifyHtml(string html)
    {
        var parser = new HtmlParser();
        var document = parser.ParseDocument(html);

        // ① 批量替换class
        var elements = document.QuerySelectorAll("div[class^='old-class']");
        foreach (var element in elements)
        {
            element.SetAttribute("class", "new-class");
        }

        // ② 插入新节点
        var newDiv = document.CreateElement("div");
        newDiv.TextContent = "动态生成的内容";
        document.Body.AppendChild(newDiv);

        // ③ 删除无用元素
        var removeElements = document.QuerySelectorAll(".remove-me");
        foreach (var element in removeElements)
        {
            element.Remove();
        }

        Console.WriteLine(document.DocumentElement.OuterHtml); // 输出修改后的HTML
    }
}

注释说明：

选择器威力：① ^=匹配以old-class开头的class。
DOM操作：② CreateElement/AppendChild实现动态插入。
清理冗余：③ 批量删除元素，保持HTML简洁。

三、C#网页解析的“暴击级案例”

3.1 电商价格监控系统

// 电商价格抓取（核心代码）
public class PriceScraper
{
    public async Task<List<Product>> ScrapeProducts(string url)
    {
        var document = await _context.OpenAsync(url);
        var products = new List<Product>();

        var items = document.QuerySelectorAll(".product-item");
        foreach (var item in items)
        {
            var title = item.QuerySelector(".product-title").TextContent;
            var price = decimal.Parse(item.QuerySelector(".price").TextContent
                .Replace("$", string.Empty));
            var imageUrl = item.QuerySelector("img").GetAttribute("src");

            products.Add(new Product
            {
                Title = title,
                Price = price,
                ImageUrl = imageUrl
            });
        }

        return products;
    }
}

// 实体类
public class Product
{
    public string Title { get; set; }
    public decimal Price { get; set; }
    public string ImageUrl { get; set; }
}

注释说明：

数据清洗：Replace("$", "")移除货币符号，确保decimal.Parse成功。
结构化输出：Product类封装数据，便于后续处理。

3.2 新闻标题实时抓取

// 新闻标题实时监控（核心代码）
public class NewsScraper
{
    public async Task<List<string>> GetLatestNews()
    {
        var document = await _context.OpenAsync("https://news.example.com");
        var articles = document.QuerySelectorAll(".article-item");
        return articles.Select(a => a.QuerySelector(".title").TextContent)
            .ToList();
    }
}

注释说明：

简洁高效：单行Select转换，减少代码冗余。
异步友好：async/await无缝集成，支持高并发。

四、AngleSharp的“黑科技优化”

4.1 处理大型文档：内存优化策略

// 大型文档分块处理（企业级代码）
public class LargeDocumentProcessor
{
    public async Task ProcessLargePage(string url)
    {
        var config = Configuration.Default
            .With(new CustomDocumentLoader()) // 自定义加载器
            .WithCss();
        var context = BrowsingContext.New(config);
        var document = await context.OpenAsync(url);

        // 分块处理（例如每1000个元素）
        var elements = document.QuerySelectorAll(".data-row");
        for (int i = 0; i < elements.Length; i += 1000)
        {
            var chunk = elements.Skip(i).Take(1000);
            ProcessChunk(chunk);
        }
    }

    private void ProcessChunk(IEnumerable<IElement> chunk)
    {
        // 处理数据并释放内存
        foreach (var element in chunk)
        {
            // 数据提取逻辑
        }
        GC.Collect(); // 强制垃圾回收
    }
}

注释说明：

分块处理：避免一次性加载全部元素，降低内存占用。
手动GC：GC.Collect()强制回收临时对象，防止内存泄漏。

4.2 自定义解析器：突破标准限制

// 自定义HTML解析器（高级技巧）
public class CustomParser : HtmlParser
{
    protected override void OnElementOpen(HtmlElement element)
    {
        base.OnElementOpen(element);
        // 自定义元素处理逻辑
        if (element.TagName == "custom-tag")
        {
            element.SetAttribute("processed", "true");
        }
    }
}

// 使用自定义解析器
var parser = new CustomParser();
var document = parser.ParseDocument(htmlContent);

注释说明：

继承扩展：通过继承HtmlParser重写生命周期方法。
动态属性：为自定义标签添加processed标记，便于后续处理。

五、企业级案例：金融数据自动化系统

5.1 场景：实时抓取股票K线数据

// 股票数据抓取（核心代码）
public class StockDataScraper
{
    public async Task<List<StockData>> GetStockData(string ticker)
    {
        var url = $"https://finance.example.com/{ticker}";
        var document = await _context.OpenAsync(url);
        
        var rows = document.QuerySelectorAll(".kline-row");
        return rows.Select(row => new StockData
        {
            Date = row.QuerySelector(".date").TextContent,
            Open = decimal.Parse(row.QuerySelector(".open").TextContent),
            Close = decimal.Parse(row.QuerySelector(".close").TextContent),
            Volume = int.Parse(row.QuerySelector(".volume").TextContent)
        }).ToList();
    }
}

public class StockData
{
    public string Date { get; set; }
    public decimal Open { get; set; }
    public decimal Close { get; set; }
    public int Volume { get; set; }
}

注释说明：

数据类型转换：严格转换为decimal和int，避免类型错误。
实体映射：StockData类直接映射HTML结构，提升可读性。

六、未来趋势：AI驱动的网页解析

// AI辅助解析（概念代码）
public class AIPoweredScraper
{
    private readonly MachineLearningModel _model;

    public AIPoweredScraper()
    {
        _model = new MachineLearningModel("html_parser.onnx"); // 加载预训练模型
    }

    public async Task<List<string>> ExtractDynamicContent(string url)
    {
        var document = await _context.OpenAsync(url);
        var elements = document.QuerySelectorAll("div");
        
        var candidates = elements.ToList();
        candidates.Sort((a, b) => _model.Score(a.OuterHtml).CompareTo(
            _model.Score(b.OuterHtml)));
        
        return candidates.Take(10).Select(e => e.TextContent).ToList();
    }
}