nutch的爬虫demo代码 编辑

关键词: nutch
今日来看看Nutch怎么Parse页面的: 
Nutch运用了两种Html parser东西(NekoHTML和TagSoup)来完成html的获取,这两种东西是可经过配置来选择的。 
当然你要自己完成Parser你还能够选择HTMLParser[根据visitor访问者形式一起也供给了Event driver的接口]来 
获取页面。假如你用惯了XML一套处置办法,运用NekoHTML和TagSoup应该会对比随手的。 
咱们来看看类public class HtmlParser implements Parser的完成: 
首要为了非常好的了解下面的代码先看看成员变量: 
Java代码 仿制代码
private static final int CHUNK_SIZE = 2000;  
 private static Pattern metaPattern =  
   Pattern.compile("<meta\\s+([^ style="font-family: 'sans serif', tahoma, verdana, helvetica; font-size: 12px; line-height: 18px;">]*http-equiv=\"?content-type\"?[^>]*)>",  
                   Pattern.CASE_INSENSITIVE); 
 private static Pattern charsetPattern =  
   Pattern.compile("charset=\\s*([a-z][_\\-0-9a-z]*)",  
                   Pattern.CASE_INSENSITIVE);  
   list.add("http://www.hyyfscl.com");
   list.add("http://www.yzbljp.com/");
   list.add("http://www.ceocbs.com/");
   list.add("http://lf.yunnanw.cn");
   list.add("http://www.lcsyt.com/");
   list.add("http://www.minnan888.net/");
   list.add("http://www.vipfuxin.com/");
   list.add("http://www.qclchina.com/");
   list.add("http://www.tongxinglong.com/");
   list.add("http://www.jinanwuliangye.com/");
 private String parserImpl;  

CHUNK_SIZE获取html meta tag有些的html片断的长度,通常meta tag没有超越2000bytes的,所以只需要从这有些 
获取就行了 
metaPattern为meta tag匹的正则形式 
charsetPattern为字符集编码的正则形式 
parserImpl是详细运用的是NekoHTML还是TagSoup来parser html.假如parserImpl为"tagsoup"就运用TagSoup,不然就运用NekoHTML。 
用来从html在meta tag里边获取出charset或Content-Type中指定的编码: 
length限定在meta tag有些获取,经过正则表达式很容易获取出编码 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值