asp.net 处理html r,用HtmlParser 实现asp.net采集网分析网页,可直接用作采集

【实例简介】

主要实现了通过HtmlParser 实现网页源文件的抓取以及分析,示例中包含了常用的几种操作,更多内容须大家一起完善,虽然本项目是用winform编写,但是其中的代码可以直接copy到web项目中 使用(已做过测试)。

asp.net采集网分析网页用它即可。

另注:需要添加这些引用(项目文件中已包含Winista.HtmlParser.dll的引用)

using Winista.Text.HtmlParser;

using Winista.Text.HtmlParser.Filters;

using Winista.Text.HtmlParser.Util;

using Winista.Text.HtmlParser.Tags;

【实例截图】

8e6e6fb54732b9763f267566ee03b0bd.png

bc733459d8c1703629e65d1a2b095182.png

89e7bbdd117434c6c6626c290fdc4d27.png

【核心代码】

string strHTML = GetUrl(this.textBox1.Text);

this.textBox2.Text = "";

//this.textBox2.Text = strHTML;

string strTMP = "";

Parser parser = Parser.CreateParser(strHTML, "gb2312");

AndFilter andimg = new AndFilter();

andimg.Predicates = new NodeFilter[] { new NodeClassFilter(typeof(ImageTag)) };

NodeList imglist = parser.ExtractAllNodesThatMatch(andimg);

if (imglist.Count > 0)

{

for (int j = 0; j < imglist.Count; j )

{

ImageTag img = (ImageTag)imglist[j];

strTMP = (img.GetAttribute("src")).ToString() img.ToHtml() "\r\n";

}

}

this.textBox2.Text = strTMP;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值