elasticsearch使用(一)

注意:es 英文默认是使用小写的方式搜索的

搜索技术深入

手工控制搜索结果精准度

  1. 下面搜索,如果firstName中含有idriss 或者Ahamat,都符合搜索条件
GET worldcheck/_search
{
  "query": {
    "match": {
      "firstName": "idriss Ahamat"
    }
  }
}
  1. 下面搜索,firstName中含有idriss 和Ahamat
GET worldcheck/_search
{
  "query": {
    "match": {
      "firstName": {
        "query": "idriss Ahamat",
        "operator": "and" // or 搜索 和方法1效果相同
      }
    }
  }
}
  1. 需要firstName字段中包含多个搜索条件中的一定比例,则可以使用minimum_should_match实现,其中minimum_should_match可以使用百分比或者数字,百分比代表query搜索条件中词条百分比,如果无法整除,则向上取整(不能使用小数),(如:query有3个字段,如果使用使用百分比则无法除尽,那么需要至少匹配两个单词,则需要67%来进行描述,如果使用66%,es默认匹配一个单词);固定数字代表query搜索条件中的词条,至少需要匹配多少个。
GET worldcheck/_search
{
  "query": {
    "match": {
      "firstName": {
        "query": "idriss Ahamat",
        "minimum_should_match": "50%" // 或者 1
      }
    }
  }
}
  1. 使用should+ bool 搜索,下面搜索firstName字段中idriss 、Ahamat三个单词必须包含一个
GET worldcheck/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "firstName": "idriss"
          }
        },
        {
          "match": {
            "firstName": "Ahamat"
          }
        }
      ],
      "minimum_should_match": 1 // 不加 默认也是包含任意一个
    }
  }
}

match 的底层转换

GET worldcheck/_search
{
 "query": {
   "match": {
     "userName": "Walter BALZAN"
   }
 }
}

转换后

GET worldcheck/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "userName": "Walter"
          }
        },
        {
          "match": {
            "userName": "BALZAN"
          }
        }
      ]
    }
  }
}
GET worldcheck/_search
{
  "query": {
    "match": {
      "userName": {
        "query": "Walter BALZAN",
        "operator": "and"
      }
    }
  }
}

转换后

GET worldcheck/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "userName": "Walter"
          }
        },
        {
          "match": {
            "userName": "BALZAN"
          }
        }
      ]
    }
  }
}
GET worldcheck/_search
{
  "query": {
    "match": {
      "userName": {
        "query": "Walter BALZAN MITROVIC",
       "minimum_should_match": 2 # 至少匹配两个单词
      }
    }
  }
}

转换后

GET worldcheck/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "userName": "Walter"
          }
        },
        {
          "match": {
            "userName": "BALZAN"
          }
        },
        {
          "match": {
            "userName": "MITROVIC"
          }
        }
      ],
      "minimum_should_match": 2
    }
  }
}

建议: 如果不怕麻烦,尽量使用转换后的语法执行搜索,效率更高。

boost 权重控制

搜索文档中 username 字段中包含Walter的数据,如果username中包含BALZAN 或者 MITROVIC,则包含BALZAN 的文档优先显示(就是将BALZAN 数据匹配时的相关都分数增加)

GET worldcheck/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "userName": "Walter"
          }
        }
      ],
      "should": [
        {
          "match": {
            "userName": {
              "query": "BALZAN",
              "boost": 3
            }
          }
        },
        {
          "match": {
            "userName": {
              "query": "MITROVIC",
              "boost": 1
            }
          }
        }
      ]
    }
  }
}

一般用于搜索需要某个数据显示在最前面
_score 权重分数 用于测试观察

多shard 环境中相关分数不准确问题

在es 的搜索结果中,相关度分数不是一定准确的,相同的数据,使用相同的搜索条件搜索,得到的相关度分数可能有误差。
出现这种问题的原因是:
多分片 (如果只要一个分片 就不会有误差 ),例如在shard0中,有100个document中包含Walter,在shard1中有10个包含Walter,那么在执行搜索的时候,es计算相关度分数时,就会出现计算不准确的问题。因为es计算相关度分数是在shard本地计算的,根据TF/IDF算法,在shard0中的document相关度会低于shard1,这也是es 官方解释过的一个问题。
在生产环境中,如果数据量足够多,es会将数据均匀分布在多个shard中,那么在概率上看,不会出现这种问题。
在开发测试中可以创建index的时候,settings设置number_of_shards:1来解决这个问题,也可以通过下述搜索中的请求参数来解决这个问题。

GET worldcheck/_search?search_type=dfs_query_then_fetch
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {
            "userName": "Walter"
          }
        }
      ],
      "should": [
        {
          "match": {
            "userName": {
              "query": "BALZAN",
              "boost": 3
            }
          }
        },
        {
          "match": {
            "userName": {
              "query": "MITROVIC",
              "boost": 1
            }
          }
        }
      ]
    }
  }
}

注意: search_type=dfs_query_then_fetch参数不要在生产环境中使用,效率极低。因为这是将所有的查询结果反馈到协调节点后,协调节点在统一计算相关分数的方式,对内存和IO的压力很高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用 Elasticsearch SQL 插件,您需要先确保您已经安装了 Elasticsearch 7.1.1 版本。然后,按照以下步骤进行操作: 1. 安装 Elasticsearch SQL 插件: - 打开终端或命令提示符窗口。 - 运行以下命令安装 Elasticsearch SQL 插件: ``` ./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-sql/releases/download/7.1.1.0/elasticsearch-sql-7.1.1.0.zip ``` - 安装完成后,重启 Elasticsearch 以使插件生效。 2. 使用 Elasticsearch SQL: - 打开终端或命令提示符窗口。 - 进入 Elasticsearch 的安装目录。 - 运行以下命令以启动 Elasticsearch SQL 查询: ``` ./bin/elasticsearch-sql-cli ``` - 您将进入 Elasticsearch SQL 的命令行界面。 - 现在,您可以开始使用 SQL 语法来查询 Elasticsearch 数据。 例如,您可以运行以下命令来执行一个简单的 SELECT 查询: ``` SELECT * FROM your_index_name WHERE your_field_name = 'your_value' ``` 注意:在上述查询中,`your_index_name` 是您要查询的索引名称,`your_field_name` 是您要查询的字段名称,`your_value` 是您要匹配的字段值。 这样,您就可以使用 Elasticsearch SQL 插件来执行 SQL 查询并检索 Elasticsearch 中的数据了。请记住,Elasticsearch SQL 插件提供了一种方便的方式来使用 SQL 语法进行查询,但它可能不适用于所有类型的查询,特别是复杂的查询。因此,在使用插件时,请确保您了解其使用限制和适用场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值