Bigdatda-nutch
礼彬fly
这个作者很懒,什么都没留下…
展开
-
nutch从搜索引擎到网络爬虫
人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting 的评价:“他开发出卓越超群的全文检索引擎工具包(Lucene/Solr原创 2014-09-19 19:01:51 · 4689 阅读 · 0 评论 -
Nutch1.2 的安装与使用
Nutch1.2的安装与使用1、nutch1.2下载 下载地址 http://archive.apache.org/dist/nutch/ 2、nutch1.2目录 bin:用于命令行运行的文件;conf:Nutch的配置文件;lib:一些运行所需要的jar文件;plugins:存放相应的插件;src:Nutch的所有源文件;webapps原创 2014-09-19 19:06:56 · 3696 阅读 · 0 评论 -
nutch相关目录说明
Nutch数据包含3个目录结构,分别是:1、Crawldb:用于存储Nutch将要检索的url信息,以及检索状态(是否检索、何时检索)2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点)3、Segments:一组url的集合,他们作为一个检索单元,可用于分布式检索Segment目录包含以下子目录信息:(1) crawl_generate:转载 2014-09-13 21:00:23 · 791 阅读 · 0 评论 -
Ubuntu12搭建nutch1.2+tomcat7+jdk1.6
Ubuntu12搭建nutch1.2+tomcat7+jdk1.6所用软件:jdk-6u24-linux-i586.binapache-tomcat-7.0.27.tar.gzapache-nutch-1.2-bin.tar.gz (注:我的文档很多复制cp指令是在root权限下进行,所以修改权限。如果在ubuntu一般用户权限下进行复制指令,则不用修改权限)一、安装jdk原创 2014-09-11 16:05:34 · 2847 阅读 · 3 评论