[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 单机指南（二）-CSDN博客

本文链接：https://blog.csdn.net/muslic/article/details/51487777

可喜可贺写到了第二篇，照这个势头都可以去写论文了。我的委托人小Y明明计科系出身，看来上学时期肯定脑瓜里都是蔷薇色的，才傻傻来找本熊帮忙。可惜本熊上学时期都是节能减排型的，通关模式向来选Easy，但为了可以愉快的勒索小Y的午餐，本熊也是够拼了。

纯初学者说明模式
本章节主讲实现本地模式

Solr4.10与Tomcat集成
删除Solr索引的方法
一点有效但不实用的小技巧

1.Solr与Tomcat集成

集成的原因，初学者的可能会好奇Solr与Tomcat两个都是可以作为服务器，为啥不单用Solr呢？

单独启动Solr也可以，但原因在于将来实现的不是这样的伪集群模式，Solr在搜索引擎中的作用是建立索引，而管理集群的工作则交给了zookeeper，而载体就是Tomcat

可以参照前一章的步骤完成准备工作，接下来就可以正式开工了

1.1 解压Tomcat与solr

这里的路径随意，本熊假设Tomcat的主目录为TomcatPath，Solr的主目录为SolrPath，Nutch的解压后的主目录为NutchPath

以下是本熊的解压位置：
TomcatPath的值就是 /home/as/workspace/tomcat
SolrPath的值就是 /home/as/下载/solr-4.10.3
NutchPath的值就是 /usr/Dzy/apache-nutch-2.3.1

各位看官可以看自己的解压位置替换，本熊只为方便说明。

在TomcatPath下的/webapps文件夹内新建名叫solr文件夹
在SolrPath下路径/example/webapps有名为solr.war的压缩文件，将其复制到刚才新建的solr文件夹内
在当前目录将solr.war解压

本熊请各位务必注意路径，本熊将截图包括路径，各位可以根据自身情况稍加推理，找到正确的位置。
将SolrPath下的/example内的solr文件夹复制到TomcatPath路径下，如图
在NutchPath下的/conf中的schema.xml文件，复制到TomcatPath下的/solr/collection1/conf内覆盖原文件

这样第一步准备工作就算完成啦，至于为什么复制Nutch的
schema.xml文件呢？了解过MYSQL的人肯定看这个词很眼熟，这就是告知solr服务器需要保留哪些类型数据的配置文件

1.2 修改solr的配置文件

此处的目的在于修改solr的配置文件，使其能准确的找到core的位置，本熊推测core的作用正是像处数据理机一样，里面集成了分词器等，使其可以可以建立索引。

在TomcatPath下/webapps/solr/WEB-INF的文件内修改web.xml文件，将选取部分的注释取消（将开头 消除即可）

正确的写法是

   <env-entry>
       <env-entry-name>solr/home</env-entry-name>
       <env-entry-value>/home/as/workspace/tomcat/solr</env-entry-value>
       <env-entry-type>java.lang.String</env-entry-type>
   </env-entry>

<env-entry-value>标签下写的是步骤1.1的最后一步复制的solr文件所在的路径，**不是**solr.war的解压路径