Nutch
devalone
这个作者很懒,什么都没留下…
展开
-
走进 Apache Nutch (v1.14)
Apache NutchApache Nutch 起源于 Apache Lucene 项目,是高可扩展性和高可伸缩性的开源 web 爬虫软件项目。项目主页: http://nutch.apache.org/ 出于底层数据存储多样性的设计,目前该项目在两个代码分支上持续开发,分别是: ● Nutch 1.x :成熟的产品级 web 爬虫,这个分支通过精细的优化配制,...原创 2018-08-16 09:55:34 · 4282 阅读 · 2 评论 -
Nutch 分布式运行模式 (v1.14)
Nutch 1.x 是成熟的产品级 web 爬虫,这个分支通过精细的优化配制,充分利用了具有非常强大的批处理能力的Apache Hadoop数据结构。目前该分支最新版本是 2017 年12月23日发布的 Nutch 1.14,基于 Hadoop 2.7.4 版本开发。Nutch 的另一开发分支为 Nutch 2.x,利用 Apache Gora 作为数据中间层来处理对象的持久化映射。这样用户可...原创 2018-08-17 10:00:11 · 1253 阅读 · 1 评论 -
利用 Topgit 对 Nutch 定制开发进行代码管理(一)
对开源项目的定制开发,源代码管理是一个人抓狂的问题。随着主代码版本的推进和定制版本开发越来越远,要使用主代码中新版本的特性,势必要将主代码中的新版本合并到自己的定制版本中。这时可能出现大量的冲突,而且冲突的数量会随着时间的推移和两个分支上代码量的增加而显著增多。解决这些冲突要耗费大量的时间和精力,而且可能会弄得一塌糊涂,令人望而生畏。然而这个过程不会结束,每隔一段时间就会由于主代码版本发布新的版本...原创 2018-08-21 10:54:07 · 799 阅读 · 0 评论 -
利用 Topgit 对 Nutch 定制开发进行代码管理(二)
继 : 利用 Topgit 对 Nutch 定制开发进行代码管理(一) 6. 利用 Topgit 对 Nutch 定制开发进行代码管理了解了 Topgit 的原理和使用方法之后,就可以利用 Topgit 对 Nutch 定制开发进行源代码管理了。 6.1 准备版本库 ● 克隆完整的 Nutch 项目代码从 github 上克隆完整的 nutch 项目代码: ...原创 2018-08-21 10:59:23 · 435 阅读 · 0 评论