liuqinshouss的博客

技术小白的成长记录

Solr中文字段的查询与字段分词后如何聚合查询的问题

问题描述:

问题一:

 比如数据里面有个叫name的字段,存储的是用户名,如果name字段使用的fieldType配置了英文分词,那么我们对于这个字段的查询结果会有错误。比如,查询“张三”,那么像“张”、“三哥”、“张一三”等数据都会被查出来,含有“张”或者“三”的数据都会被查出来,也就是说,配置了英文分词的,对中文默认会是按字分词,并且只要满足一个字就会被匹配上。

问题二:

在对某个使用配置了分词的fieldType的中文字段进行聚合查询的的时候,会按照分词的方式进行聚合,而不是一个字段作为一个整体进行聚合。比如字段内容为:“中国人民”,配置英文分词,没有配置中文分词的,将会按字分词,会按“中”、“华”、“人”、“民”去聚合,配置了中文分词的,有可能会按照“中国”、“人民”去进行聚合,而我们想要的结果是整个字段去进行聚合,所以这都不符合我们的要求。

解决办法:

这两个问题其实是一个问题,solr字段中文分词的问题。针对这个问题有一下两个办法:

(1)、对于中文字段,使用solr定义好了的没有配置英文分词的fieldType,比如string等,而不要用像text_general进行了英文分词的fieldType,这样对对中文就会是一个字段看做一个整体。查询也不会出现错乱,也可用通配符。

(2)、对我们将要包含中文、或者将要进行聚合查询的字段。我们要使用自定义的fieldType,并引用它,样例如下:

<field name="name" type="text_not" store=true index=true />

<fieldType name="text_not" class="solr.TextField" omitNorms="true" />

 fieldType中的name是自定义供field引用的fieldType的名字,class属性目前还不清楚,solr定义好的fieldType都是这样的写的,omitNorms表示该字段是否需要分词,true为不需要,默认是需要,所以不分词的字段可以不明确定义omitNorms属性为true,但是最好自己明确定义,这样让schema.xml明确些,方便阅读。


阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/liuqinshouss/article/details/76599129
个人分类: solr
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

不良信息举报

Solr中文字段的查询与字段分词后如何聚合查询的问题

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭