目录
什么是分词
分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis。
举例:我是中国人 --> 我/是/中国人
使用ES原生分词器
我们国内项目很少用到内置分词,主要由于汉语中没有明显分隔点,而不像英文单词 空格 单词。所以对于英文的内置分词这里只做简单说明
- Standard:标准分词,按单词切分,并且会转化成小写
- Simple分词器,按照非单词切分,并且做小写处理
- Whitespace是按照空格切分。
- Stop分词器,是去除Stop Word语气助词,如the、an等。
- Keyword分词器,意思是传入就是关键词,不做分词处理。