Nutch & Lucene
文章平均质量分 77
allenshi_szl
大道至简
展开
-
架设自己的搜索引擎,Nutch安装手记
utch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎.尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大转载 2009-11-19 17:32:00 · 1270 阅读 · 1 评论 -
Lucene索引前对doc pdf html文件的预处理
初学Lucene,写下点小小的心得:Lucene提供的API能够方便地对文本文档创建索引,但当需要为像.doc 、.pdf 这样的非文本文档创建索引时就必须先把文档转换为纯文本。对.pdf文件的处理lib:PDFBoxPDFBox是一个在java环境中对pdf文件进行解析处理的开源软件,同时它也提供了一个丰富的类库支持对pdf文件的操作。PDFBox为使用Lucene的开发者专转载 2009-12-06 22:16:00 · 2812 阅读 · 2 评论 -
lucene pdf+doc+ppt+xls+txt+多层文件
lucene pdf+doc+ppt+xls+txt+多层文件2009-09-21 20:33/* * To change this template, choose Tools | Templates * and open the template in the editor. */package stringtest;import java.io.*;im转载 2009-12-06 22:16:00 · 2006 阅读 · 0 评论 -
使用PDFBox处理PDF文档
在本书的前面所介绍的内容中,所处理的都是纯文本文件。但是事实上,人们用于保存信息的文件并不是纯文本格式。现在比较流行的文件存储格式有Adobe公司的PDF和Microsoft的Word、Excel等。在处理这些文件的时候,不能简单的从文件读取字符,需要根据他们特殊的格式提取内容。本章就将对比较流行的PDF、Word和Excel格式的处理工具逐一进行介绍。7.1 使用PDFBox转载 2009-12-06 15:53:00 · 1101 阅读 · 0 评论 -
运行nutch常见几个错误
1.1.1 Crawl抓取出现hadoop出错提示配置完成nutch在cygwin中运行nutch的crawl命令时:[Fatal Error] hadoop-site.xml:15:7: The content of elements must consist of well-formed character data or markup.Exception转载 2009-11-19 22:37:00 · 1830 阅读 · 0 评论 -
Nutch开源搜索引擎的crawl日志分析及工作目录说明
看了nutch关于crawl的源码后,我将crawl的日志分析了一下,主要是熟悉一下整个下载、分析、索引的过程。nutch在整个过程中都是通过Hadoop的MapReduce来实现的。可以通过nutch来深入学习Hadoop编程,都是比较横的代码。这一块待以后研究完毕后,blog出来。crawl通过nutch-default.xml参数来控制运行过程,另外需要修改crawl-转载 2009-11-19 21:52:00 · 840 阅读 · 0 评论 -
Nutch1.0源码分析-----抓取部分
简单的分析了nutch抓取过程,涉及到的mapredue等内容在这不做讨论,时间仓促,很多地方写得不具体,以后有时间再慢慢修改,工作需要又得马上分析nutch相关配置文件,分析整理后会发布上来。转载请注明出处1.1 抓取目录分析一共生成5个文件夹,分别是:l crawldb目录存放下载的URL,以及下载的日期,原创 2009-11-19 17:48:00 · 2628 阅读 · 3 评论 -
Problem with nutch-1.0 when run Nutch In Eclipse
Two Errors with RTFParseFactoryIf you are trying to build the official 1.0 release, Eclipse will complain about 2 errors regarding the RTFParseFactory (this is after adding the RTF ja原创 2009-11-19 10:04:00 · 464 阅读 · 0 评论 -
完成了paoding与lucene的集成
理解疱丁分词的基本原理,编译原码,用ANT编译E:/workspace/searchengine/paoding-analysis-2.0.4-beta 完成了中文分词的solr集成工作,集成到solr中去, 注意: 1)需要将solr的tomcat的connector改成可接受utf8 <Connector port="8080"转载 2009-11-19 22:29:00 · 3098 阅读 · 2 评论 -
NutchTutorial
Requirements Java1.4.x, either from Sun or IBM on Linux is preferred. SetNUTCH_JAVA_HOME to the root of your JVM installation. Nutch 0.9requires Sun JDK 1.5 or higher. Apaches Tomcat 5.原创 2009-11-19 11:20:00 · 516 阅读 · 0 评论 -
Run Nutch In Eclipse on Linux and Windows nutch version 0.9
Run Nutch In Eclipse on Linux and Windows nutch version 0.9 This is a work in progress. If you find errors or would like to improve this page, just create an account [UserPreferences] and sta转载 2009-11-19 10:01:00 · 706 阅读 · 0 评论 -
Nutch环境配置
lucene + Nutch 搜索引擎一书中完成必要的配置工作,包括把从conf目录添加到build->classpath;把src/test添加到源代码目录(source folders);添加所有的lib下面的jars和plugin lib中的所有文件到工程中。具体操作如下:第一步:添加conf目录到buid->Classpath.我是这样做的:原创 2010-03-04 10:00:00 · 860 阅读 · 1 评论