控制字段的存储选项
ES底层使用Lucene存储数据,主要包括行存(StoreFiled)、列存(DocValues)和倒排索引(InvertIndex)三部分。 大多数使用场景中,没有必要同时存储这三个部分,可以通过下面的参数来做适当调整:
StoreFiled: 行存,其中占比最大的是source字段,它控制doc原始数据的存储。在写入数据时,ES把doc原始数据的整个json结构体当做一个string,存储为source字段。查询时,可以通过source字段拿到当初写入时的整个json结构体。 所以,如果没有取出整个原始json结构体的需求,可以通过下面的命令,在mapping中关闭source字段或者只在source中存储部分字段,数据查询时仍可通过ES的docvaluefields获取所有字段的值。
注意:关闭source后, update, updatebyquery, reindex等接口将无法正常使用,所以有update等需求的index不能关闭source。
# 关闭 _source
PUT my_index
{
"mappings":{
"my_type":{
"_source":{
"enabled":false
}
}
}
}
doc_values:控制列存。
ES主要使用列存来支持sorting, aggregations和scripts功能,对于没有上述需求的字段,可以通过下面的命令关闭docvalues,降低存储成本。
PUT my_index
{
"mappings":{
"my_type":{
"properties":{
"session_id":{
"type":"keyword",
"doc_values":false
}
}
}
}
}
index:控制倒排索引。
ES默认对于所有字段都开启了倒排索引,用于查询。对于没有查询需求的字段,可以通过下面的命令关闭倒排索引。
{
"mappings":{
"my_type":{
"properties":{
"session_id":{
"type":"keyword",
"index":false
}
}
}
}
}
all:ES的一个特殊的字段,ES把doc的所有值拼接成一个字符串后,做分词,然后保存倒排索引,用于支持整个json的全文检索。
这种需求适用的场景较少,可以通过下面的命令将all字段关闭,节约存储成本和cpu开销。(ES6.0+以上的版本不再支持_all字段,不需要设置)
# 关闭 all
PUT my_index
{
"mappings":{
"my_type":{
"_all":{
"enabled":false
}
}
}
}
fieldnames:用于exists查询,来确认doc里面某个字段是否存在。没有需求,可以将其关闭。
# 关闭 all
PUT my_index
{
"mappings":{
"my_type":{
"_field_names":{
"enabled":false
}
}
}
}
作者:右左君
链接:https://www.jianshu.com/p/8281545346e8
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。