.net 一个可以像操作XML一样操作HTML的文档的类库 HtmlAgilityPack

最新推荐文章于 2024-08-13 08:29:05 发布

aofengdaxia

最新推荐文章于 2024-08-13 08:29:05 发布

阅读量432

点赞数

分类专栏： C#开发文章标签： C#解析HTML

本文链接：https://blog.csdn.net/aofengdaxia/article/details/80476333

版权

C#开发专栏收录该内容

66 篇文章 2 订阅

订阅专栏

在写爬虫的时候，少不了处理HTML的。一般少不了通过正则表达式，或者SubString的方式把字符串截取。最近发现一个类：HtmlAgilityPack可以像操作XML一样的去操作HTML。

使用方式

使用Nuget直接安装下载。

代码实例

public void Example(string strHtml)
{
    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    doc.LoadHtml(strHtml);
    //获得一个单独的div
    var singleNode = doc.DocumentNode.SelectSingleNode("//div[@class='mp-tickets']");
    //获得多个div的Node
    var multiNodes = singleNode..SelectNodes("div[@class='mp-tickettype']");

    foreach(var node in multiNodes)
    {
    //可以执行其他的操作
    }
}

注意事项

SelectSingleNode 和SelectNodes 统称为Select方法
Select方法的参数可以输入标签名或者标签名带class的如

SelectSingleNode("div");
SelectSingleNode("div[@class='className']");

如果标签以//开头

SelectSingleNode("//div[@class='className']");

则会进行模糊的检索，如果不带//只会匹配一级字标签的内容。在需要精确的搜索的时候，最好精确控制，否则会出错。
更多的操作方式，仍需摸索解锁

aofengdaxia

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录