![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nutch
文章平均质量分 57
iteye_18210
这个作者很懒,什么都没留下…
展开
-
Nutch学习记录-下载、安装、配置
1.下载 Nutch http://www.apache.org/dyn/closer.cgi/nutch/ 下载的时候apache-nutch-1.2-bin.tar.gz 是拿来直接用的 apache-nutch-1.2-src.tar.gz 是拿来在MyEclipse里配置的。以前没注意到这个区别。 2.安装 Nutch 如果直接拿...原创 2010-10-31 16:31:21 · 124 阅读 · 0 评论 -
nutch 乱码 解决方案
nutch对中文的支持还不完善,需要修改tomcat 文件夹下conf/server.xml文件 [root@localhost tomcat]#vi conf/server.xml 增加两句,修改为 <Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" ...原创 2010-07-01 11:09:59 · 111 阅读 · 0 评论 -
从nutch索引里面,读取文章内容
nutch作为一个完整的搜索引擎,是广大搜索爱好者学习的一个好项目。然而,因为nutch自己封装了一套严谨的IO操作类,要查看原始网页的内容,也不容易。在毕业设计的过程中,经过一般的摸索,可以由索引得到每个网页的原始内容。因此,后继的文本分类的研究也得以展开。代码如下: import org.apache.lucene.search.IndexSearcher;import jav...原创 2010-07-02 12:56:08 · 66 阅读 · 0 评论 -
Nutch的命令详解 (没有找到源地址)
关键字: nutch 命令 Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下: 1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shell代码 bin/nutch crawl <urlDir>...原创 2010-07-02 13:00:31 · 106 阅读 · 0 评论 -
集成Nutch和Solr
两年前集成Nutch 和Solr 这两个Apache Lucene 项目组下的子项目实在是件困难的事情,需要打很多补丁(patches),为他们的联姻搜寻各种必需的组件(required components)。今非昔比,时下,在Solr4.0 也即将浮出水面的时候,两者的结合变的相对容易。 今年早些时候发布的Nutch 1.0包含了"开盒即用"的原装的(out of the box)Solr集...原创 2010-07-06 16:51:26 · 179 阅读 · 0 评论 -
Lucene3.0 简单解析
一、 概述 Lucene3.0(以下简称3.0)已于2009-11-25发布,3.0版本是重大的版本,改动很大。在API上做了很多的调整,已经删除了很多之前废弃的方法以及类,并支持了很多Java5 的新特性:包括泛型、可变参数、枚举和autoboxing等。 因此,此版本和2.x版本不能兼容,如要使用3.0版本,最好是在新项目中去使用,而不是去升级2.x或之前的版本! 二、3...原创 2010-07-20 10:58:07 · 148 阅读 · 0 评论