中文分析器IK-Analyzer的使用
在Solr中默认是没有中文分析器的,需要手工配置,配置一个FieldType,在FieldType中指定中文分析器。另外,Solr中的字段必须先定义,后使用。
下面分步骤进行操作
第一步:将IK-Analyzer的压缩包上传到solr服务器上。如下所示。
[root@solr-server software]# ll
总用量 335576
drwxr-xr-x. 9 root root 4096 4月 30 05:51 apache-tomcat-7.0.47
-rw-r--r--. 1 root root 8234674 3月 15 01:22 apache-tomcat-7.0.47.tar.gz
-rw-r--r--. 1 root root 2159463 1月 15 19:46 IKAnalyzer2012FF_hf1.zip
-rw-r--r--. 1 root root 183212596 4月 2 10:51 jdk-8u112-linux-x64.gz
-rw-r--r--. 1 root root 150010621 3月 15 01:20 solr-4.10.3.tgz.tgz
[root@solr-server software]#
第二步:安装zip和unzip命令(因为最小化安装的CentOS6没有unzip命令)
[root@solr-server software]# yum install zip unzip
第三步:解压,如下所示
[root@solr-server software]# unzip IKAnalyzer2012FF_hf1.zip
[root@solr-server software]# ll
总用量 335580
drwxr-xr-x. 9 root root 4096 4月 30 05:51 apache-tomcat-7.0.47
-rw-r--r--. 1 root root 8234674 3月 15 01:22 apache-tomcat-7.0.47.tar.gz
drwxr-xr-x. 3 root root 4096 10月 2 2015 IKAnalyzer2012FF_hf1
-rw-r--r--. 1 root root 2159463 1月 15 19:46 IKAnalyzer2012FF_hf1.zip
-rw-r--r--. 1 root root 183212596 4月 2 10:51 jdk-8u112-linux-x64.gz
-rw-r--r--. 1 root root 150010621 3月 15 01:20 solr-4.10.3.tgz.tgz
[root@solr-server software]#
解压完后,我们到IKAnalyzer2012FF_hf1目录下查看都有哪些文件,如下所示。
其中doc当然是文档了;
ext_stopword.dic是停用词词典(在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词&#x