Elasticsearch –使用模式替换过滤器和自定义分析器忽略查询中的特殊字符

最新推荐文章于 2024-06-17 00:13:22 发布

dnc8371

最新推荐文章于 2024-06-17 00:13:22 发布

阅读量1.1k

点赞数 1

文章标签： java elasticsearch 数据库 mysql 正则表达式

本文介绍了如何在Elasticsearch 5中处理含有特殊字符的驾驶执照编号字段，允许用户在搜索时不需输入特殊字符。通过创建一个模式替换字符过滤器和自定义分析器`alphanumericStringAnalyzer`，可以实现大小写不敏感且忽略特殊字符的搜索。文章详细阐述了创建过滤器、分析器和字段映射的步骤，并展示了如何在查询中应用这些改动。

摘要由CSDN通过智能技术生成

使用Elasticsearch 5，我们有一个字段，例如驾驶执照编号，其中的值可能包含特殊字符，并且由于用户在有限的验证范围内输入了值，因此值的大小写不一致。例如，这些是假设值：

CA-123-456-789
WI.12345.6789
tx123456789
az-123-xyz-456
…

在我们的应用程序中，最终用户需要按该字段进行搜索。我们有一项业务要求，即用户应该不必输入任何特殊字符（例如连字符和句号）即可取回记录。因此，对于上面的第一个示例，用户应该能够键入以下任何值并查看该记录：

CA-123-456-789（完全匹配）
CA123456789（无特殊字符）
ca123456789（小写字母，无特殊字符）
Ca.123.456-789（混合大小写和特殊字符）

我们的方法是编写一个忽略特殊字符的自定义分析器，然后针对该字段进行查询。

步骤1：创建模式替换字符过滤器和自定义分析器

我们定义了一种模式替换字符过滤器，以删除索引上的所有非字母数字字符，如下所示：

"char_filter": {
    "specialCharactersFilter": {
        "pattern": "[^A-Za-z0-9]",
        "type": "pattern_replace",
        "replacement": ""
    }
}

然后，我们使用该过滤器创建一个自定义分析器，在索引上将其命名为“ alphanumericStringAnalyzer”：

"analyzer": {
    "alphanumericStringAnalyzer": {
        "filter": "lowercase",
        "char_filter": [
            "specialCharactersFilter"
        ],
        "type": "custom",
        "tokenizer": "standard"
    }
}

步骤2：使用自定义分析器定义字段映射

下一步是定义一个使用新的“ alphanumericStringAnalyzer”分析器的新字段映射：

"driversLicenseNumber": {
    "type": "text",
    "fields": {
        "alphanumeric": {
        "type": "text",
            "analyzer": "alphanumericStringAnalyzer"
        },
        "raw": {
            "type": "keyword"
        }
    }
}

步骤3：对新字段运行查询

在我们的例子中，我们在“ should”子句中将此匹配查询作为布尔查询的一部分：

{
    "match" : {
        "driversLicenseNumber.alphanumeric" : {
            "query" : "Ca.123.456-789",
            "operator" : "OR",
            "boost" : 10.0
        }
    }
}

翻译自: https://www.javacodegeeks.com/2018/03/elasticsearch-ignore-special-characters-query-pattern-replace-filter-custom-analyzer.html

dnc8371

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch –使用模式替换过滤器和自定义分析器忽略查询中的特殊字符

使用Elasticsearch 5，我们有一个字段，例如驾驶执照号码，其中的值可能包含特殊字符，并且由于用户在有限的验证范围内输入了这些值，因此它们的大小写行为不一致。例如，这些是假设值： CA-123-456-789 WI.12345.6789 tx123456789 az-123-xyz-456 … 在我们的应用程序中，最终用户需要按该字段进行搜索。我们有...
复制链接

扫一扫