php solr分词配置,Solr配置ik分词器(扩展词,停用词)同时进行同义词解析

Solr5.5.5版本+IK Analysis的词典及同义词配置

我的Solr5.5.5是采用Jetty方法进行配置的

主要是配置三个文件

/usr/solr/solr-5.5.5/server/solr/mycore(自己定义的core)/conf/schema.xml

配置域,自定义各种数据,并关联solr里面的数据

/usr/solr/solr-5.5.5/server/solr/mycore(自己定义的core)/conf/solrconfig.xml

定义了一些solr的处理规则,基础配置文件

索引数据的存放位置

更新,删除,查询的一些规则配置

/usr/solr/solr-5.5.5/server/solr/mycore(自己定义的core)/conf/data-config.xml(这个文件自己创建一个添加进去就好)

这个是solr关联数据库的一个文件

废话不多说,上代码

首先出场的是:data-config.xml

url="jdbc:mysql://localhost:3306/test" user="root" password="password"/>

踩坑点:

dataSource标签中的name必须和下面entity标签中的dataSource属性对应

一个dataSource下面只能有一个document但是可以有多个entity

entity在配置的时候记得配置上主键(PK)

entity中的每一个column都记得在schema.xml中配置

紧接着:schema.xml

踩坑点:

对数据库中的字段配置真的是很有必要的!!!并且如果你想要后面的某个属性进行分词的话一定要指定他的type和后面配置的ik分词器中的一样!!!!!

IK分词的时候注意上面的class一定不要错,不然到时候Reload的时候必报错

index和query两个最好都配置上

注意在配置同义词的时候这个synonyms一定要对应好同义词词典

LowerCaseFilterFactory是一个配置不区分大小写的,可有可无

配置完这两个之后可以顺便把同义词词典给弄一下,见下面两幅图:

6217d0cbd712de8578bf5de618f8886c.png

dbad3621e2ca94ba72a299b5ef949aa2.png

踩坑点: 保存的时候务必是utf-8,不然你会发现白弄了 可以用=>来进行配置,但是这样的话只能是左边等同于右边,比如输入还行会出来还可以,但是输入还可以那么还是还可以(这不是绕口令) 可以用英文的逗号进行分割,切记英文逗号!这样的配置可以等价替换

最后就是solrconfig.xml啦

data-config.xml

截至到此差不多就可以啦,可别说你不知道ik该放在什么目录!好吧,起始刚开始我也不知道(/▽\=)

IK分词器怎么配置

将IK的jar包放到/usr/solr/solr-5.5.5/server/solr-webapp/webapp/WEB-INF/lib目录下 将ext.dic、IKAnalyzer.cfg.xml、stopword.dic复制到/usr/solr/solr-5.5.5/server/solr-webapp/webapp/WEB-INF/classes目录下(classes自行创建) IKAnalyzer.cfg.xml中的内容如下:

IK Analyzer 扩展配置

ext.dic;

stopword.dic;

踩坑点: 扩展词词典和停用词词典一定要是utf-8格式的! 在刚下载下来的ext.dic配置扩展词词典的那句话是被注释掉的!千万记得去看一眼,一眼就好!

q(≧▽≦q)这下真的就结束啦!感谢观看!欢迎指正!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值