我有一个存储在elasticsearch索引中的大型文档集,我需要找到类似的文档集来排除重复项 .
不幸的是,这些文档可能有不同的值,所以我不能完全依赖过滤器 . 相反,我试图评估使用多个字段和不同提升值的两个文档之间的差异 .
如果差异太大,则文档不会计为重复 . 问题是 - 我不知道如何评估差异,因为搜索响应中的_score没有说明差异有多大 .
为每个特定查询获得最大可能得分是完美的 . 我怎样才能做到这一点?
Edit :例如,如果我执行这样的查询,则返回带有_score的JSON,大于1.00
请求:GET / documents / sometype / _search
{
"query": {
"bool": {
"should": [
{"match": {
"title": {
"query": "some title"
}
}}
]
}
}
}
响应示例:
{“take”:1,“timed_out”:false,“_ shards”:...,“hits”:{“total”:100,“max_score”:1.7588379,}}
正如文档所述,_score - 只是一个浮点数,对其范围一无所知 .