1.简介
Solr是一个高性能,采用Java5开发,Solr基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。因为中文的特殊性,在对中文文档建立全文索引时,需要利用分词工具进行分词。
目前比较知名的分词工具有:
IK,庖丁等.下面使用的是IK分词
2.下载
solr链接:https://pan.baidu.com/s/1iitpaYgBVpXQSUABtkCm5Q
提取码:tuuo
3.安装
解压文件即可。
在solr-5.4.0/bin
修改solr的权限
chmod 777 solr
在{SOLR_HOME}/bin运行:
./solr start -p 8984
可以在ip:8984端口上查看solr情况
关闭solr
./solr stop -all
创建core。
1.进入server/solr目录创建coredir
cd /usr/local/solr/solr-5.4.0/server/solr
2.复制configsets中的sample*文件夹中的conf到coredir下
cd /usr/local/solr/solr-5.4.0/server/solr/configsets
cp -r sample_techproducts_configs/ /usr/local/solr/solr-5.4.0/server/solr
cd ..
mv sample_techproducts_configs/ mycore
3.在solr管理页面上创建(添加)core
4.中文分词配置
利用的ik分词器。
ik-analyzer-solr5-5.x.jar
下载地址 https://pan.baidu.com/s/1MlzginuetwyONGQ5KbtnOg
提取码:7g7z
步骤:
1.添加jar包
将jar包添加到{SOLR_HOME}/server/solr-webapp/webapp/WEB-INF/lib
2.修改配置,不要用插件打开文件修改(会造成如下错误).
建议使用 vi schema.xml
修改schema.xml 将下面内容放进schema.xml中即可。也可以修改字段中的‘text_ik’
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" />
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" />
</analyzer>
</fieldType>
配置解析:
text_ik表示你的停词名称,里面所有的text_ik可以修改,但是要统一修改。
注意点!!!!!
防止出现下面错修改conf目录下的elevate.xml文件
解决问题的方法是 修改elevate.xml文件,将其中的id值设置为数字,就可以了。
重启solr
关闭solr
./solr stop -all
运行:
./solr start -p 8984
检测:
进入solr管理页面-->analysis 查看分词结果
1.进入web页面 ip:8984
2.选择你添加的core
3.
4.结果
出现以上结果,恭喜你表示中文分词成功。努力努力再努力......