ElasticSearch数据类型和分词器

lamb张

已于 2024-09-19 16:15:15 修改

阅读量689

点赞数 5

文章标签： elasticsearch 大数据搜索引擎

于 2024-09-16 19:13:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38703379/article/details/142299133

版权

一、数据类型

1、Text （文本数据类型）

2、Keyword（关键字数据类型）

3、Alias（别名类型）

4、Arrays (集合类型)

5、Numeric （数值数据类型）

6、日期类型

7、Boolean（布尔类型）

8、Binary (二进制类型)

9、IP （数据类型）

10、Range (范围数据类型)

11、Object (对象数据类型)

12、Dense vector (密集矢量数据类型)

13、Flattened (扁平化数据类型)

14、Geo-point (地理位置数据类型)

15、Join (链接数据类型)

16、Nested (嵌套数据类型)

17、Token count (令牌计数数据类型)

二、索引

1、正排索引和倒排索引的区别

正排索引：是文档(ID)到关键词的映射（从文档找关键词）

倒排索引：是关键词到文档（ID）的映射（从关键词找文档）

三、分词

1、分词：是将文本字符串拆分成独立的词汇和术语的过程。

四、分词器

1、Character Filters（字符过滤器）：对原始文本进行预处理，对文本修改或者删除等。比如删除html标签、特定词替换等。

2、Tokenizer (分词器)：对字符过滤器处理过的文本切分成一个个词条，形成词条流。切分规则可以是空格、标点符号等。

3、Token Filters（词汇过滤器）：对切分后的词条进一步处理，大小写替换、启用停用词（没有意义的词）。词汇过滤器处理文本以适应索引和查询需求非常重要。

五、常见分词器

1、Standard Analyzer（分词依据：空格、标点符号）（特点：小写化处理，过滤符号）

2、Whitespace Analyzer (分词依据：空格)（特点：不进行小写处理、保留所有字符）

3、Keyword Analyzer (分词依据：无)（特点：将这个输入作为一个词条）

4、Simple Analyzer（分词依据：非字母（符号、数字））（特点：小写化处理、过滤符号、支持中文拼音分词）

5、Stop Analyzer (分词依据：空格)（特点：小写化处理，过滤停用词）

6、IK Analyzer（分词依据：词典）（特点：中文分词）

7、Edge Ngram Analyzer（分词依据：n-gram）（特点：按指定步长进行分词）

8、Pattern Analyzer （分词依据：正则匹配字符）（特点：灵活）

9、Custom Analyzer (分词依据：自定义)（特点：灵活）

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。