Nutch
文章平均质量分 84
amuseme_lu
Don't Grow Old, Grow Up!
展开
-
Nutch 1.0 Fetcher 抓取模型解析
Nutch 1.0 Fetcher 抓取模型解析----------------------------- 1. 介绍2. 抓取流程分析3. 结束---------------1. 介绍 Nutch是apache Lucene的一个子项目,它主要用来进行网页数据的收集和索引。它用结合apache的Hadoop和Lucene等子项目。Nutch的一般抓取流程如下:原创 2010-03-24 11:23:00 · 3198 阅读 · 2 评论 -
Nutch 1.3 学习笔记 4-1 SegmentReader分析
Nutch 1.3 学习笔记 4-1 SegmentReader分析-----------------------------------前面我们看了一下Generate的流程,它是为Fetch产生相应的fetchlist,这里想介绍一下Segment的查看工具Segme原创 2011-08-27 00:19:46 · 4413 阅读 · 2 评论 -
Nutch 1.3 学习笔记 6 ParseSegment
Nutch 1.3 学习笔记 6 ParseSegment-----------------------------------1. bin/nutch parse这个命令主要是用来解析抓取的内容,对其进行外链接分析,计算分数等操作,这个解析在抓取的时候就可以原创 2011-08-28 22:11:40 · 3437 阅读 · 3 评论 -
Nutch 1.3 学习笔记 7 CrawlDb - updatedb
Nutch 1.3 学习笔记 7 CrawlDb - updatedb------------------------------这里主要看一下CrawlDb中的updatedb,它主要是用来更新CrawlDb数据库的1. bin/nutch updatedb原创 2011-08-28 23:33:15 · 4164 阅读 · 6 评论 -
Nutch 1.3 学习笔记 5-1 FetchThread
Nutch 1.3 学习笔记 5-1 FetchThread-----------------------------------上一节看了Fetcher中主要几个类的实现,这一节会来分析一下其中用到的消费者FetcherThread,来看看它是干嘛的。1.原创 2011-08-27 22:54:44 · 3773 阅读 · 4 评论 -
Nutch 1.3 学习笔记 5 Fetcher流程
Nutch 1.3 学习笔记 5 Fetcher-------------------------------1. Fetcher模块的简单介绍Fetcher这个模块在Nutch中有单独一个包在实现,在org.apache.nutch.fetcher,其中有Fetch原创 2011-08-27 15:18:39 · 4641 阅读 · 2 评论 -
Nutch 1.3 学习笔记 8 LinkDb
Nutch 1.3 学习笔记 8 LinkDb----------------------------这里主要是分析一下org.apache.nutch.crawl.LinkDb,它主要是用计算反向链接。1. 运行命令 bin/nutch invertlink原创 2011-08-29 22:02:25 · 3857 阅读 · 0 评论 -
Nutch 1.3 学习笔记 外传 扩展Nutch插件实现自定义索引字段
扩展Nutch插件实现自定义索引字段1.Nutch与Solr的使用介绍 1.1 一些基本的配置在conf/nutch-site.xml加入http.agent.name的属性 生成一个种子文件夹,mkdir -p urls,在其中生成一个种子文件,在这个文件中写入一个url,如http://nutch.apache.org/ 编辑conf/regex-urlfilter.txt文原创 2012-04-25 10:23:49 · 6663 阅读 · 6 评论 -
Nutch 2.0 终于来了
Nutch 2.0 终于来了-------------------------带着大部分人的期待,Nutch 2.0终于发布了,它在Nutch 1.x的基础上做了比较大的改变,主要还是在它的存储层的抽象上,Nutch 2.0的计划最终由使用者对于Nutch对No-sql的不支持而建立起来的,最初的版本叫做NutchBase,由Dogacan Guney进行开发,最初始版本由于过于依赖H原创 2012-07-17 00:07:35 · 4808 阅读 · 0 评论 -
Nutch2.0 之 Apache Gora 介绍
Nutch 2.0 之 Apache Gora介绍-----------------1. 什么是Apache Gora Apache Gora是一个开源的ORM框架,主要为大数据提供内存数据模型与数据的持久化。目前Gora支持对于列数据、key-value数据,文档数据与RDBMS数据的存储,还支持使用Apache Hadoop来对对大数据进行分析。2. 为什么原创 2012-07-20 22:43:20 · 20843 阅读 · 0 评论 -
Nutch 2.0 之 Apache Gora MR介绍
Nutch 2.0 之 Apache Gora MR介绍-----------------1. 介绍 Apapche Gora内建了对于Apache Hadoop的支持,而Gora的dataStore可以用来做为InputFormat与OutputFormat的输入与输出,然而这些输出的对象都会被序列化,Gora扩展了Avro的DatumWriters来实现的。2原创 2012-07-21 15:05:50 · 5095 阅读 · 1 评论 -
Nutch 1.3 学习笔记 4 Generate
Nutch 1.3 学习笔记 4 Generate------------------------------1. Generate的作用 在Inject之后就是Generate,这个方法主要是从CrawlDb中产生一个Fetch可以抓取的url集合(fetchl原创 2011-08-25 23:12:47 · 5330 阅读 · 4 评论 -
Nutch 1.3 学习笔记 10-1 - Ntuch 插件机制简单介绍
Nutch 1.3 学习笔记 10 -1 - Ntuch 插件机制简单介绍---------------------------------------- 在Nutch中,大量的可扩展的部分都使用了插件来做,如网页下载时所用的协议选择,解析不同类型的网页,url的过滤和原创 2011-09-15 00:00:10 · 3039 阅读 · 0 评论 -
从Nutch的输出日志分析其流程
<br /><br /> 一、简介<br />1. Nutch是一个基于Hadoop和Lucene的一个网络爬行器,用于收集网页信息。<br />2. 特点:基于Plugin机制以提高可扩展性;多协议和多线程分布式抓取;基于插件的内容分析机制;强大的抓取预处理控制;可扩展的数据处理模型(mapReduce);全文索引器和搜索引擎(Lucene or Solor),支持分布式查询;强大的API和集成配置。<br /> 二、一些必须的配置<br />1. Nutch 1.2版本,ubuntu 10.01 xfc原创 2010-11-07 21:49:00 · 4022 阅读 · 7 评论 -
Nutch 1.3 学习笔记 9 SolrIndexer
Nutch 1.3 学习笔记 9 SolrIndexer----------------------------------新的Nutch使用了Solr来做了后台的索引服务,nutch正在努力与Solr进行更方便的整合,它很好的与Solr处理了耦合关系,把Solr当成一个原创 2011-09-01 23:50:23 · 4808 阅读 · 11 评论 -
Nutch 1.3 学习笔记 10-2 插件扩展
Nutch 1.3 学习笔记 插件扩展 10-2---------------------------------1. 自己扩展一个简单的插件 这里扩展一个Nutch的URLFilter插件,叫MyURLFilter 1.1 生成一个Package原创 2011-09-15 22:43:51 · 2809 阅读 · 0 评论 -
Nutch 1.3 学习笔记 10-3 插件机制分析
Nutch 1.3 学习笔记 10-3 插件机制分析-------------------------------------1. 一些对象说明 PluginRepository:这是一个用于存储所有插件描述对象(PluginDescriptor),插件扩展点原创 2011-09-18 00:19:08 · 4750 阅读 · 1 评论 -
Nutch 1.3 学习笔记1
Nutch 1.3 学习笔记1--------------------1. Nutch是什么?Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算原创 2011-08-22 23:12:55 · 7218 阅读 · 7 评论 -
Nutch 1.3 学习笔记2
Nutch 学习笔记 2-----------------1. Nutch 1.3 运行命令的一些介绍 要看Nutch的命令说明,可执行如下命令bin/nutch Usage: nutch [-core] COMMAND where COMMAND原创 2011-08-22 23:41:29 · 4055 阅读 · 0 评论 -
Nutch 1.3 学习笔记 11-1 页面评分机制 OPIC
Nutch 1.3 学习笔记 11-1 页面评分机制 OPIC--------------------------------------1. Nutch 1.3 的页面评分机制 Nutch1.3目前默认还是使用OPIC作为其网页分数算法,但其之后,已经引入了Pa原创 2011-09-20 13:46:47 · 6856 阅读 · 0 评论 -
Nutch 1.3 学习笔记 12 Nutch 2.0 的主要变化
Nutch 2.0 的主要一些变化1. Storage Abstraction initially with back end implementations for HBase and HDFS extend it to other storages l原创 2011-09-20 14:27:13 · 5226 阅读 · 1 评论 -
Nutch 1.3 学习笔记3 - Inject
Nutch 1.3 学习笔记 - Inject----------------------------1. Inject是干嘛的?在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。这里的文本格式如下:http原创 2011-08-23 23:21:50 · 5948 阅读 · 4 评论 -
Nutch 1.3 学习笔记3-1 Inject CrawlDB Reader
Nutch 1.3 学习笔记3-1 Inject CrawlDB Reader---------------------------------------------上次我们分析了Inject的整个流程,其中说到了Inject的输出格式是MapSequenceFileO原创 2011-08-24 22:50:23 · 3321 阅读 · 0 评论 -
Nutch 1.3 学习笔记 11-2 页面评分机制 LinkRank 介绍
刚试了一把Google翻译,感觉不是可以的。下面是Google翻译的http://wiki.apache.org/nutch/NewScoring内容,是关于Nutch 新的链接分数算法的说明,有点类似于Google的PageRank,这里有其运行的一个例子http://wi翻译 2011-09-20 13:50:42 · 8149 阅读 · 1 评论 -
Nutch 2.0 之 抓取流程简单分析
Nutch 2.0 抓取流程介绍---------------------1. 整体流程InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => SolrIndexerJobInjectorJob : 从文件中得到一批种子网页,把它们放到抓取数据库中去Generator原创 2012-07-23 23:41:26 · 10483 阅读 · 9 评论