Elasticsearch默认都会把原数据存两份,一份在行存里,一份在列存里。Elasticsearch会根据查询的pattern,选择扫描的合适的存储文件。
参考文章:es索引优化(行存储、列存储、索引)
es的底层存储使用lucene,主要包含行存储(storefiled),列存储(docvalues)和倒排索引(invertindex)。
大多数使用场景中,没有必要同时存储这三个部分,可以通过下面的参数来做适当调整
1 mapping type index 设置
-
"_source": {
-
"enabled": false
-
}
StoreFiled:
行存储,其中占比最大的是_source字段,它控制doc原始数据的存储。在写入数据时,ES把doc原始数据的整个json结构体当做一个string,存储为_source字段。查询时,可以通过_source字段拿到当初写入时的整个json结构体。 所以,如果没有取出整个原始json结构体的需求,可以通过下面的命令,在mapping中关闭_source字段或者只在_source中存储部分字段,数据查询时仍可通过ES的docvalue_fields获取所有字段的值。
注意:关闭_source后, update, update_by_query, reindex等接口将无法正常使用,所以有update等需求的index不能关闭_source。
2 字段doc_values设置
"doc_values": false
控制列存。ES主要使用列存来支持sorting, aggregations和scripts功能。
3 字段索引设置
"index": false
控制倒排索引。ES默认对于所有字段都开启了倒排索引,用于查询。