nutch 1.8与solr 4.8环境搭建

原创 2014年05月04日 14:30:03

   环境:ubuntu 11.10

   前提:

   因为solr 4.8必须要jdk1.7或者以上才能正确编译 如果使用jdk1.6或者以下的话 使用jetty运行solr的时候 会出现

       java.lang.UnsupportedClassVersionError Unsupported major.minor version 51.0 [duplicate]
所以在进行以下操作时 确保你的jdk版本为1.7以上 如下



1.从这 http://mirror.bit.edu.cn/apache/nutch/1.8/   下载 apache-nutch-1.8-bin.zip  下载nutch 1.8

  从这 http://mirror.bit.edu.cn/apache/lucene/solr/4.8.0/  下载 solr-4.8.0.tgz 下载solr 4.8

 分为解压 如下

unzip apache-nutch-1.8-bin.zip

tar -zxvf  solr-4.8.0.tgz



2.验证nutch与solr是否可以正常运行

nutch 出现如下情形表示nutch环境没有问题



验证 solr 如下截图




在浏览器中输入 http://192.168.38.209:8983/solr/#/   192.168.38.209为你ubuntu的ip地址

出现如下界面 表示solr的环境也没问题

因为solr是借助于jetty来运行的



3.整合nutch与solr

  配置nutch来进行抓取网页

  a: 配置代理名称 进入到nutch上面解压的conf目录下  例如 

      /home/u1/java/apache-nutch-1.8/conf
修改 nutch-site.xml 文件 添加如下内容

property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

 上面的值 可以随便设置

     b:设置你想抓取的网页 下面添加了两个准备抓取的网址 百度和新浪 如下

     


  c:配置nutch的配置文件到solr中 官网上如此描述的


官网上的描述和solr 4.8中的目录稍微有一点不符合 

   具体操作如下



 

  上面需要注意的是 就是第二步  因为从solr 4开始 需要nutch的配置文件为schema-solr4.xml 而不是原来的schema.xml  不然会报如下错误

collection1: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:
Plugin init failure for [schema.xml] fieldType "text": 
Plugin init failure for [schema.xml] analyzer/filter:
Error loading class 'solr.EnglishPorterFilterFactory'

然后重新启动  solr即可


 d:最后一步了 使用nutch抓取网页后 索引存到solr中 进行后续的索引

   使用如下命令即可 如下


 

 /bin/crawl 在进行抓取的时候  经过五个阶段 分别是  inject->generate->fetch->parse->updatedb


 查看是否抓取到了数据 如下



  你会发现 怎么 retry 1 和 db_unfetched都是1呢 其实看到这么小的数字 我们也会意识到 应该是没有抓取到数据

  可是  为什么呢  抓取数据的时候 没有报错 怎么没有数据呢  又是折腾了1个多小时 我突然意识到  我们实验室的电脑前段时间刚换的 需要账号才能上网 原来我的ubuntu没有上网 郁闷死了 连上网 删掉产生的文件crawl文件夹  重来



现在有数据了吧 

  再来在solr建的索引中看看是否可以查到数据了 

   


上面即是 nutch1.8与solr4.8的环境搭建  记录学习的脚步 

参考: http://wiki.apache.org/nutch/NutchTutorial

参考: http://lucene.apache.org/solr/4_8_0/tutorial.html


  


     

      



版权声明:本文为博主原创文章,未经博主允许不得转载。

Nutch1.7学习笔记1:基本环境搭建及使用

Nutch1.7学习笔记1:基本环境搭建及使用 作者:雨水,时间:2013-10-31博客地址:http://blog.csdn.net/gobitan 说明:Nutch有两个主版本1.x和2.x,它...
  • gobitan
  • gobitan
  • 2013年10月31日 21:39
  • 8406

【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】

1、下载相关软件,并解压 版本号如下: (1)apache-nutch-2.2.1 (2) hadoop-1.2.1 (3)hbase-0.92.1 (3)solr-4.9.0 并解压至/usr...
  • jediael_lu
  • jediael_lu
  • 2015年01月24日 17:24
  • 25649

利用nutch、hbase和solr搭建搜索引擎

我感觉搜索引擎是互联网界最伟大的技术,它让我们在网上查询变得异常方便。         公司近期需要搭建一个站内搜索引擎,用来方便客户查询数据。借此机会学习下搜索引擎的搭建和原理。 开源界最完善的开源...
  • dhx20022889
  • dhx20022889
  • 2015年07月09日 16:24
  • 1297

Solr4.8——开发环境搭建(Eclipse or MyEclipse)

Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操...
  • csmnjk
  • csmnjk
  • 2017年03月20日 10:47
  • 839

Nutch环境搭建+Solr的使用

想学习java语言下的搜索引擎,那就必须从Apa
  • adu20111214
  • adu20111214
  • 2014年11月13日 09:14
  • 419

CentOS6.5下nutch1.7+solr4.8.1+Eclipse环境搭建(二)之solr4.8.1安装

solr是一个基于java的web的应用,所以安装solr之前必须先安装JDK和tomcat。上一篇文章已经安装了JDK和Nutch。        1、安装tomcat7(apache-tomc...
  • anxin323
  • anxin323
  • 2015年02月09日 18:57
  • 244

CentOS6.5下nutch1.7+solr4.8.1+Eclipse环境搭建(一)之nutch1.7安装

由于自己在搭建整套环境中,遇到了很多问题。网上查找了一些资料,但是没有发现完整的说明。在此做个记录,也供新学者参考。此处重点说明CentOS6.5下nutch1.7+solr4.8.1+Eclipse...
  • anxin323
  • anxin323
  • 2015年02月09日 18:56
  • 312

[Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建

上一篇博文介绍了在Windows 10系统下用Cygwin搭建Nutch开发环境,本文将介绍在Ubuntu下Nutch2.3的开发环境的搭建。 1. 需要的软件及其版本 Ubuntu 15.04 ha...
  • Kandy_Ye
  • Kandy_Ye
  • 2016年06月19日 12:39
  • 3816

Nutch环境搭建文档

  • 2016年01月14日 11:13
  • 4.58MB
  • 下载

VS2010 + Cmake + Qt4.8 简单的环境搭建实例。

很多人都用的Qt Creator进行开发, creator 确实很方便, 但调试起来,还是没有vs快捷。  cmake 实用于较为大型的项目的开始, 而且与vs组合, 更是功能强大, 加上比...
  • li235456789
  • li235456789
  • 2016年01月12日 10:46
  • 1391
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:nutch 1.8与solr 4.8环境搭建
举报原因:
原因补充:

(最多只允许输入30个字)