httphtml+XPath采集

C#版本的网络爬虫感觉还是很好用的。

 1 HttpHelper http = new HttpHelper();
 2             HttpItem item = new HttpItem() { URL = "http://www.cnblogs.com/danielWise/archive/2011/02/28/1966808.html" };
 3             HtmlDocument html = new HtmlDocument();
 4             string resultHtml = http.GetHtml(item).Html;
 5             html.LoadHtml(resultHtml);
 6 
 7             HtmlAgilityPack.HtmlNode htmlNode = html.DocumentNode;
 8             //要取出的Xpath标签
 9             HtmlAgilityPack.HtmlNode div = htmlNode.SelectSingleNode(".//*[@id=\"cnblogs_post_body\"]");
10             //Console.WriteLine(div.Elements("p").Count());
11             foreach (var mydiv in div.Elements("p"))
12             {
13                 Console.WriteLine(mydiv.InnerText);
14             }
15             Console.ReadKey();

 

转载于:https://www.cnblogs.com/MaxJoker/p/5846426.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值