Nutch-2.2.1
skyWalker_ONLY
专注于HadoopHiveHBase等大数据生态圈,对机器学习算法具有极大兴趣
展开
-
Nutch-2.2.1学习之三Nutch配置文件
Nutch2.2.1的配置文件存放在Nutch目录下的conf文件夹下,对此文件夹下的配置文件做的修改,需要执行ant命令重新编译Nutch,由于编译所依赖的jar都已经缓存,重新编译花费的时间是很短暂的。对该文件夹下的文件所做的修改,在重新编译后也会更新到runtime目录下的deploy和local目录下的conf目录中,所以大家不要奇怪,明明只是修改了根目录下的conf中的配置文件,lo原创 2013-11-27 11:01:43 · 10130 阅读 · 22 评论 -
Nutch-2.2.1学习之一Nutch简介
Nutch起源于ApacheLucene项目,已经是一个高度可扩展和可伸缩的开源网络爬虫软件项目,并且实现了多元化,包括两个版本的代码库,即:1. Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。2. Nutch2.x的版本:一个新兴的、直接受1.x原创 2013-11-19 15:27:19 · 8790 阅读 · 1 评论 -
Nutch-2.2.1学习之五Nutch抓取数据在HBase中的存储
Nutch-2.2.1爬取的数据可以存储在HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStor中,这是与Nutch-1.x系列很大的区别,在提供多样性的同时也增加了一些复杂性,比如使用不同存储时的不同配置,对特定的存储结构客户端处理方式的不同等等。这篇文章主要介绍了Nutch-2.2.1与HBase结合使用时,Nutch爬取的数据在HB原创 2013-12-12 20:26:12 · 12736 阅读 · 12 评论 -
Nutch-2.2.1学习之六以伪分布模式运行Nutch
之前运行使用Nutch都是在本地模式下,也就是执行runtime/local/bin目录下的脚本命令。本地模式主要用来熟悉Nutch的一些基本命令和调试,要想真正的使用Nutch并且发挥Nutch并行抓取网页与分布式的优势,还是要在分布式或者伪分布式下安装和运行Nutch,这里所说的分布式或者伪分布式取决于Hadoop的安装方式,也就是Nutch要想以分布式或者伪分布式的方式运行,必须基于Hado原创 2013-12-14 17:47:53 · 5741 阅读 · 1 评论 -
Nutch-2.2.1安装时无法从资源库下载jar包的问题
http://mirrors.ibiblio.org/maven2/原创 2013-11-05 10:56:20 · 7731 阅读 · 3 评论 -
Nutch-2.2.1学习之四Nutch与Hbase结合使用时常见问题
Nutch-2.2.1不再使用单一的存储结构,而是通过使用Apache Gora,是得Nutch-2.2.1可以将数据存储在诸如HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStor中。这一变化在提供更多选择,更多灵活性的同时,势必增加了Nutch的复杂性。相信很多人在从Nutch-1.x版本过渡到Nutch-2.x版本时都或多或少的遇到原创 2013-12-02 17:13:24 · 10065 阅读 · 3 评论 -
Nutch-2.2.1学习之八过滤抓取数据
在Nutch的conf目录中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt、domain-urlfilter.txt几个文件用于实现过滤抓取数据,比如不抓取后缀为gif、exe的文件等,通过修改其中的值可以达到只抓取感兴趣的内容的目的,在一定程度上也有助于提高抓取速度。原创 2013-12-25 20:28:45 · 7828 阅读 · 0 评论 -
Nutch-2.2.1学习之二编译部署Nutch及常见问题
Nutch1.x从1.7版本开始不再提供完整的部署文件,只提供源代码文件及相关的build.xml文件,这就要求用户自己编译Nutch,而整个Nutch2.x版本都不提供编译完成的文件,所以想要学习Nutch2.2.1的功能,就必须自己手动编译文件。这篇文章主要介绍了如何编译Nutch2.2.1版本,同时罗列了一些编译过程中遇到的问题及解决方案。当然不可能列举所有的问题,希望大家可以补充自己遇到的原创 2013-11-23 21:57:52 · 14360 阅读 · 19 评论 -
Nutch-2.2.1学习之九Nutch过滤URL实践
通过分析Nutch的配置文件Nutch-default.xml和阅读了部分源代码后,了解了Nutch的插件机制以及如何通过修改conf中的文件实现过滤抓取数据。默认情况下,实现URL过滤的类为RegexURLFilter,对应的过滤文件为regex-urlfilter.txt,在不修改该文件的情况下,Nutch可以过滤后缀以gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|C原创 2014-01-04 20:14:25 · 6803 阅读 · 5 评论 -
Nutch-2.2.1学习之七Nutch与Solr的集成
sdfdg原创 2013-12-22 11:42:23 · 12255 阅读 · 11 评论