查看分词
使用 analyze API 来看文本是如何被分析的,在消息体里,指定分析器和要分析的文本
http://hostName:端口/_analyze
{
“text”: “使用 analyz来看要分析的文本”
}
结果中每个汉字或单词代表一个单独的词条,token 是实际存储到索引中的词条。 position 指明词条在原始文本中出现的位置。
start_offset 和 end_offset 指明字符在原始字符串中的位置。这是标准分析器对文本进行的分析
指定分析器
安装中文分词器
Analyzer: ik_smart , ik_max_word
Tokenizer: ik_smart , ik_max_word
{
“analyzer”:“ik_max_word”,
“text”: “使用analyz来看要分析的文本”
}
-
ik_max_word:会将文本做最细粒度的拆分
-
ik_smart:会将文本做最粗粒度的拆分
ES扩展词汇
将文本当成一个词语,不可分割
{
“analyzer”:“ik_max_word”,
“text”: “我和你不分开”
}
-
config/analysis-ik目录,创建 custom.dic文件,写入文本
-
打开 IKAnalyzer.cfg.xml 文件,将新建的 custom.dic 配置其中
-
重启 ES 服务器
-
查看分词结果
自定义分析器
自定义分析器组合了三种函数
- 字符过滤器
来移除掉所有的 HTML 标签,转义特殊字符等。一个分析器可能有 0 个或者多个字符过滤器 - 一个唯一的分词器
- 词单元过滤器可以修改、添加或者移除词单元
创建索引
http://hostname:port/self_analyzer
{
"settings": {
"analysis": {
"char_filter": {
"&_to_and": {
"type": "mapping",
"mappings": ["&=> and "]
}
},
"filter": {
"self_stopwords": {
"type": "stop",
"stopwords": [ "转账", "股票"]
}
},
"analyzer": {
"self_analyzer": {
"type": "custom",
"char_filter": [
"html_strip",
"&_to_and"
],
"tokenizer": "ik_max_word",
"filter": [
"lowercase",
"self_stopwords"
]
}
}
}
}
}
检测自定义分析分词器
http://hostname:port/self_analyzer/_analyze
{
“analyzer”:“self_analyzer”,
“text”: "陌生人禁止转账 "
}