Nutch
文章平均质量分 77
uestcfrog
这个作者很懒,什么都没留下…
展开
-
信息采集及开源Boilerpipe简介
信息采集及开源Boilerpipe简介敖立翔信息采集信息采集部分是與情分析系统的先导部分,负责抓取各个网站的與情信息,并进行初步的分析处理,去除网页中无关信息,提取标题、来源、作者、发布时间、正文等有用信息,作为之后與情分析的基础。由于信息原创 2011-10-16 14:58:53 · 8782 阅读 · 5 评论 -
配置nutch软件
1.1 下载安装Java jdk-1.7.0from: http://www.oracle.com/安装目录:C:\Program Files (x86)\Java\jdk1.7.01.2 修改环境变量JAVA_HOME= C:\Program Files (x86)\Java\jdk1.7.0classpath=.;%JAVA_HOME%\lib\dt.jar;%JAVA_H转载 2011-12-25 22:47:01 · 1606 阅读 · 1 评论 -
Linux上 Nutch 1.3 + Solr 3.4.0 + Tomcat6.0 搜索引擎单节点搭建笔记
Linux上 Nutch 1.3 + Solr 3.4.0 + Tomcat6.0搜索引擎单节点搭建笔记 Nutch 是apache下的一款开源web搜索引擎,而Solr则是Apache下的一款基于Lucene的企业级开源全文搜索平台,本身不具有网页爬取功能。从Nutch 1.3 起,Nutch集成了Solr的索引框架,通过Solr为Nutch爬取到的数据建立索引。这原创 2011-12-26 23:50:26 · 3234 阅读 · 0 评论 -
备忘录:Nutch+eclipse配置
原文链接:http://blog.csdn.net/wuyamony/article/details/71814911.下载Nutch-src文件2.在eclipse中创建java项目,将Nutch-src文件解压到此项目文件夹中3.找到ivy/ivy.xml,右击选择add ivy library(如果没有此选项,则说明没有安装ivyDE,自己安装),勾选所有选项,确定,转载 2012-02-17 14:34:58 · 1147 阅读 · 0 评论 -
Nutch,hadoop错误及处理
原文链接:http://blog.csdn.net/wuyamony/article/details/72675651.Nutch在eclipse中调试时,除了参考nutchtutorial(http://wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search)中配置,还要注意nutch-default.xml中plugi转载 2012-02-17 14:37:54 · 1346 阅读 · 0 评论