在网上看到的关于es的querystring的问题,值得留意

问题

今天,我们的业务给我报了一个问题,说商品"视丽 花样系列美瞳"此品搜索不到,于是,我问业务要了搜索关键词和商品名称一样,发觉还真是搜索不到,遂排查问题,先给大家报告一下我的环境


【环境】
es的版本:0.90.2
中文分词:ansj
操作系统:CentOS6.5

【测试过程】
首先,我测试了分词接口,看分词器是否正常工作:
_analyze?text=视丽 花样系列美瞳彩片&analyzer=index_ansj 分词结果为:视、丽、花样、系列、美、美瞳、瞳、彩、彩片、片
_analyze?text=视丽 花样系列美瞳彩片&analyzer=query_ansj 分词结果为:视、丽、花样、系列、美瞳、彩片
纳尼,query_ansj分词完毕是index_ansj的子集啊!为嘛没有出现结果?(解释一下,美瞳和彩片这两个词是我加入的,但对问题没有影响)

于是,根据我的经验,我把视丽后面的空格去掉,query_ansj分词结果没有变化。

然后在query_string的"query"使用无空格的语句
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品华丽的出现了。

再把空格加上
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品又没了

于是我猜想,难到是es的query_string先按空格分词了,再把结果调用分词器吗?(其实这样的问题发生过很多次了)
紧接着,再测
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果为:花样、系列、美瞳彩、片
好吧,不是index_ansj的子集了,目前,我认为是es的query_string先按空格分了词,再调用分词器导致了这个结果
于是,我尝试把词做为一个整体
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 带空格没有数据
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 不带空格还是没有(汗,打滚,到底怎么回事!!)

难到引号不是这么用的?上单引号(json里单引号是合法的字符串)
{ "query_string": { "query": "'视丽 花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } }带空格依然没有数据
{ "query_string": { "query": "'视丽花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } } 不带空格有数据了
好吧,加不加单引号没什么变化。
    到这里,问题出来了,es的query_string怎么样才能把"query"参数里的值做为一个整体?

    接下来的思考,我尝试把美瞳和彩片加入到用户字典,但影响不大,
      _analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果依然为:花样、系列、美瞳彩、片,注意到了吗?就是这个美瞳彩引发的血案。
       脑袋里浮现出解决方案,1,索引和查询使用同一种分词器,2在ansj的歧义词典里加入歧义词
       
       解决方案1:
        { "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果
        { "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }没有结果(纳尼?到底怎么了)
        { "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果
       { "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and", "analyzer": "index_ansj"  } }有结果(到这我已经彻底凌乱了)

       我又去试了下分词接口
        _analyze?text=花样系列美瞳彩片&analyzer=index_ansj 分词结果为 :花样、系列、美、美瞳、美瞳彩、瞳、彩、彩片、片
       原来这样分词也会出现美瞳彩

        现在我困惑的是,假如\"可以做为一个完整的词,为什么query_string的"analyzer"为"query_ansj"的时候,并未出现结果,还有那个万恶的美瞳彩是肿么回事。最后用了方案2,加入了歧义词典美瞳彩片\t美瞳\tnr\t彩片\tv完美解决了问题。

      以下是我的mapping配置及分词配置
       
  • name: {
    • typestring
    • index_analyzerindex_ansj
    • search_analyzerquery_ansj
    }

    index:
  analysis:
    analyzer:
      index_ansj:
          alias: [ansj_index_analyzer]
          type: ansj_index
          user_path: ansj/user
          ambiguity: ansj/ambiguity.dic
          stop_path: ansj/stopLibrary.dic
          redis:
              pool:
                  maxactive: 20
                  maxidle: 10
                  maxwait: 100
                  testonborrow: true
              ip: publish.redis.master.yao.com:6379
              channel: ansj_term
      query_ansj:
          alias: [ansj_query_analyzer]
          type: ansj_query
          user_path: ansj/user
          ambiguity: ansj/ambiguity.dic
          stop_path: ansj/stopLibrary.dic
          redis:
              pool:
                  maxactive: 20
                  maxidle: 10
                  maxwait: 100
                  testonborrow: true
              ip: publish.redis.master.yao.com:6379
              channel: ansj_term




问题解答

其实,这个问题,不是ES的BUG,其实是分词器的问题吧,

视丽 花样系列美瞳彩片  分词没有出现“ 美瞳彩”,而 花样系列美瞳彩片分词出现“ 美瞳彩”,最根本的问题出现在这里啊!
其实和有没有空格没有关系,query_string是会处理空格,3.5以前记着是处理为了and!但是这个的问题,我理解是分词器出现了问题!
其实你,
default_operator": "or",应该会出来!

还有就是\"的问题,加\"不是说把内容当成整体处理,加\"的功能是,queyparse将会把其按照pharsequery处理,同时默认的slop为0,说白了会把\"\",内容分词后,按照term匹配,然后将所有term减slop为0的检索出来!


同时,我们以前用 lucene时,空格都是自己处理的,比如将”
视丽 花样系列美瞳彩片“转化为 视丽 OR 花样系列美瞳彩片“
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值