nutch学习1

inject 
inject操作调用的是nutch的核心包之一crawl包中的类Injector 
作用: 
      将url集合进行格式化和过滤,消除其中的非法url,并设定 
       url状态(UNFETCHED),按照一定方法进行初始化 
      将url进行合并,消除重复url入口 
      将url及其状态,分值传入crawldb数据库,与原数据库中重复的则删除旧的,更换新的 
inject操作结果:crawldb数据库内容得到更新,包括url及其状态 
generate 
   generate操作调用的是crawl包中的类generator 
   generate操作主要作用 
   从crawldb数据库中将url取出并进行过滤 
   对url进行排序,通过域名,链接数和一种hash算法综合进行降序排列 
    将排列列表写入segment 
generate操作结果:创建了抓取列表,存放在generate文件夹下 
以时间为文件夹名称。循环抓取多少次,segment文件夹下就会有多少子文件夹 
fetch 
      抓取,按照segment文件夹下的抓取列表进行 
      抓取过程中,页面的url地址可能因为链接发生改变,从而需要更新url 
      抓取采用多线程方式进行,以提高抓取速度 
      fetch操作过程中调用了parse操作 
fetch操作结果:将页面内容抓取下来,存于segment目录下 
parse  (parse包中的类ParseSegment) 
解析segment中同fetch得到的页面,并进行整理 
将页面分为parsr-date和parse-text 
parse-date保存的是页面的题名,作者,日期,链接 
parse-text中保存的是页面的文本内容 
parse:将fetch得到的页面解析为text和date 
updatedb  (crawl包中的类CrawlDb) 
对crawldb进行更新。增加新的url 
索引过程可分为三个主要操作阶段 
将数据转换为文本(采用plugin机制) 
分析文本 
将分析过的文本保存到数据库中 



 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值