lucene.net 中htmlparser 的使用

在lucene.net代码包里有个。lucene.net-1.9.RC1-000-26May05.src/Lucene.Net-1.9.rc1/Demo/DemoLib
此包是用来解析html文档,获取html文章中的title meta等。
如果使用改api DemoLib.ll
此api 有2个名字空间
namespace Lucene.Net.Demo
namespace Lucene.Net.Demo.Html
我们要使用到该名字下 class HTMLParser
比如我们要解析c:/test.htm 我们可以用如下的方法,
protected  void htmlpser(object sender, System.EventArgs e)
  {
   // 在此处放置用户代码以初始化页面
   System.IO.FileInfo myfileinfo=new System.IO.FileInfo(@"c:/test.htm");
   HTMLParser htmlp=new HTMLParser(myfileinfo);
   string outstr;
   outstr=htmlp.GetTitle()+"<br>";
   outstr=outstr+htmlp.GetSummary()+"<br>";
   Label1.Text=outstr;
  }

原包只支持本地路径下的文件,不支持url返回的html

下面我们具体做下如何获取一个url返回的html
HTMLParser()其中可支持
public HTMLParser(System.IO.FileInfo file) :
public HTMLParser(System.IO.Stream) :

我们可以把url返回的html封装到stream中 请看下面提供的方法。
protected  void htmlpser(object sender, System.EventArgs e)
  {
   // 在此处放置用户代码以初始化页面
   string PageUrl =purl.Text;
   WebRequest  request = WebRequest.Create(PageUrl);
   WebResponse response = request.GetResponse();
   Stream resStream = response.GetResponseStream();
   StreamReader sr = new StreamReader(resStream, System.Text.Encoding.Default);
   //System.IO.FileInfo myfileinfo=new System.IO.FileInfo(@"c:/test.htm");
   HTMLParser htmlp=new HTMLParser(sr);
   string outstr;
   outstr=htmlp.GetTitle()+"<br>";
   outstr=outstr+htmlp.GetSummary()+"<br>";
   Label1.Text=outstr;
   //Response.Write(htmlp.GetMetaTags().Count);
  }

 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值