.net 一个可以像操作XML一样操作HTML的文档的类库 HtmlAgilityPack

在写爬虫的时候,少不了处理HTML的。一般少不了通过正则表达式,或者SubString的方式把字符串截取。最近发现一个类:HtmlAgilityPack可以像操作XML一样的去操作HTML。

使用方式

使用Nuget直接安装下载。

代码实例

public void Example(string strHtml)
{
    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    doc.LoadHtml(strHtml);
    //获得一个单独的div
    var singleNode = doc.DocumentNode.SelectSingleNode("//div[@class='mp-tickets']");
    //获得多个div的Node
    var multiNodes = singleNode..SelectNodes("div[@class='mp-tickettype']");

    foreach(var node in multiNodes)
    {
    //可以执行其他的操作
    }
}

注意事项

SelectSingleNode 和SelectNodes 统称为Select方法
Select方法的参数可以输入标签名或者标签名带class的如

SelectSingleNode("div");
SelectSingleNode("div[@class='className']");

如果标签以//开头

SelectSingleNode("//div[@class='className']");

则会进行模糊的检索,如果不带//只会匹配一级字标签的内容。在需要精确的搜索的时候,最好精确控制,否则会出错。
更多的操作方式,仍需摸索解锁

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

aofengdaxia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值