Sorl搭建与中文分词

Sorl搭建与中文分词

一、环境搭建

1.环境需求

Centos7、Tomcat7.0、solr

2.文件下载

下载solr包与Tomcat包

3.上传文件

通过put命令上传到服务器的/usr/local/software目录下:

put -r "I:\BaiduNetdiskDownload\solr-4.10.3.tgz.tar"

put -r "F:\apache-tomcat-7.0.92.tar.gz"

4.解压文件 

解压文件到/usr/local目录下:

tar -zxvf solr-4.10.3.tgz.tar ../

tar -zxvf apache-tomcat-7.0.92.tar.gz ../

mv apache-tomcat-7.0.92.tar.gz apacher_solr

5.拷贝文件

拷贝solr文件下的/usr/local/solr-4.10.3/example/webapps/ solr.war包到Tomcat下得/webapps/目录下,在Tomcat/webapps中删除其他不需要的包,

cp solr.war /usr/local/apache_solr/webapps/

6.解压文件

解压solr.war包到solr目录下

unzip solr.war -d solr

7.配置文件

需要编辑solr项目下WEB_INFO中的web.xml文件中的solr home节点的值,将节点的值换位solr所在的目录

<env-entry>

  <env-entry-name>solr/home</env-entry-name>

  <env-entry-value>/usr/local/solr-4.10.3/example/solr</env-entry-value>

  <env-entry-type>java.lang.String</env-entry-type>

</env-entry>

8.拷贝jar包

将usr/local/solr-4.10.3/example/lib/ext/文件下的jar包全部拷贝到Tomcat的lib目录下:

cd usr/local/solr-4.10.3/example/lib/ext/

cp * /usr/local/apache_solr/bin/

9.启动服务

运行Tomcat目录项的./startup.sh

10.访问项目

访问地址:http://服务器地址:8080/solr

若访问不到请关闭防火墙,临时关闭防火墙命令:

systemctl stop firewalld.service

二、中文分词

1.文件整合

需要三个文件,一个是IK的jar包,一个是配置文件,还有一个dic文件,将jar包到Tomcat中solr项目下的WEB_INF下的lib目录下,然后在WEB_INF下新建文件callass,将另外两个配置文件放入到其中。

上传文件:

/usr/local/apache_solr/webapps/solr/WEB-INF/lib

sftp> put -r "I:\solr搜索框架\IK Analyzer 2012FF_hf1\IKAnalyzer2012FF_u1.jar"

新建文件夹:

mkdir callass

上传文件:

/usr/local/apache_solr/webapps/solr/WEB-INF/callass

sftp> put -r "I:\solr搜索框架\IK Analyzer 2012FF_hf1\stopword.dic" "I:\ solr搜索框架\IK Analyzer 2012FF_hf1\IKAnalyzer.cfg.xml"

2.配置环境

修改solr下的配置文件vi /usr/local/solr-4.10.3/example/solr/collection1/conf/schema.xml

<fieldType name="text_ik" class="solr.TextField" >

   <!-- 索引时候的分词器  -->

   <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer" />

   <!-- 查询时候的分词器  -->

   <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer" />

</fieldType>

3.测试验证

配置完成以后重新启动Tomcat服务器,使得配置生效。

关闭服务器

/usr/local/apache_solr/bin/shutdown.sh

启动服务器

/usr/local/apache_solr/bin/startup.sh

 

4.扩展词库

若需要自定义一些特殊的分词,则可以进行此操作,首先停止服务器以后,修改/usr/local/apache_solr/webapps/solr/WEB-INF/callass/IKAnalyzer.cfg.xml配置文件。

关闭服务器

/usr/local/apache_solr/bin/shutdown.sh

查看配置文件:

Vi /usr/local/apache_solr/webapps/solr/WEB-INF/callass/IKAnalyzer.cfg.xml

反馈内容:

<properties>

        <comment>IK Analyzer 扩展配置</comment>

        <!--用户可以在这里配置自己的扩展字典

        <entry key="ext_dict">ext.dic;</entry>

        -->

        <!--用户可以在这里配置自己的扩展停止词字典-->

        <entry key="ext_stopwords">stopword.dic;</entry>

</properties>

内容说明:

ext.dic文件是用户配置自己的扩展字典,需要在callass目录下新建名为ext.dic文件,并在其中写入自定义的分词;

stopword.dic文件是用户禁止的分词,同样需要在callass目录下新建文件,之前拷贝的文件也就是这个文件。

测试案例,需求:若现在用户需要将“我是中华人民共和国的一员”划分为一个分词,则在callass目录下新建文件ext.dic,并在其中输入“我是中华人民共和国的一员”,回车换行,保存退出。

vi ext.dic

输入“我是中华人民共和国的一员”

保存退出:

:x

启动服务

/usr/local/apache_solr/bin/startup.sh

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值