1、Analysis 与 Analyzer
° 可使用Elasticsearch内置的分析器/或者按需定制化分析器
• 除了在数据写入时转换词条,匹配Query语句时候也需要用相同的分析器对查询语句进行分析
2、Analyzer的组成
• 分词器是专门处理分词的组件,Analyzer由三部分组成
o Character Filters (针对原始文本处理,例如去除html)/ Tokenizer (按照规则 切分为单词)/ Token Filter (将切分的的单词进行加工,小写,删除stopwords,增加同义词)
3、Elasticsearch的内置分词器
- Standard Analyzer 一默认分词器,按词切分,小写处理
- Simple Analyzer 一按照非字母切分(符号被过滤),小写处理
- Stop Analyzer 一小写处理,停用词过滤(the, a, is)
- Whitespace Analyzer —按照空格切分,不转小写
- Keyword Analyzer —不分词,直接将输入当作输出
- Patter Analyzer —正则表达式,默认\W+ (非字符分隔)
- Language-提供了30多种常见语言的分词器
- Customer Analyzer自定义分词器
4、使用 _analyzer API
5、Elasticsearch的内置分析器
- Standard Analyzer 一默认分词器,按词切分,小写处理
- Simple Analyzer 一按照非字母切分(符号被过滤),小写处理
- Stop Analyzer 一小写处理,停用词过滤(the, a, is)
- Whitespace Analyzer —按照空格切分,不转小写
- Keyword Analyzer —不分词,直接将输入当作输出
- Patter Analyzer —正则表达式,默认\W+ (非字符分隔)
- Language-提供了30多种常见语言的分词器
5.1 Standard Analyzer
5.2 Simple Analyzer
5.3 Stop Analyzer
5.4 Whitespace Analyzer
5.5 Keyword Analyzer
5.6 Patter Analyzer
5.8 Language