Elasticsearch Mapping parameters（主要参数一览）

最新推荐文章于 2024-09-05 13:09:01 发布

m0_60607895

最新推荐文章于 2024-09-05 13:09:01 发布

阅读量970

点赞数 17

分类专栏： Java程序员面试文章标签： elasticsearch java 大数据

本文链接：https://blog.csdn.net/m0_60607895/article/details/136695439

版权

Java程序员面试专栏收录该内容

9 篇文章 0 订阅

订阅专栏

“username”: “johnsmith”,

“name”: {

“first”: “John”,

“last”: “Smith”

}

PUT my_index/_doc/2 // @1

{

“username”: “marywhite”,

“email”: “mary@white.com”,

“name”: {

“first”: “Mary”,

“middle”: “Alice”,

“last”: “White”

}

GET my_index/_mapping // @2

代码@1在原有的映射下，增加了username，name.middle两个字段，通过代码@2获取映射API可以得知，es已经为原本不存在的字段自动添加了类型映射定义。

注意：dynamic只对当前层级具有约束力，例如：

PUT my_index

{

“mappings”: {

“_doc”: {

“dynamic”: false, // @1

“properties”: {

“user”: { // @2

“properties”: {

“name”: {

“type”: “text”

“social_networks”: { // @3

“dynamic”: true,

“properties”: {}

}

代码@1：_doc类型的顶层不能不支持动态隐式添加字段映射。

代码@2：但_doc的嵌套对象user对象，是支持动态隐式添加字段映射。

代码@3：同样对于嵌套对象social_networks，也支持动态隐式添加字段映射。

enabled

是否建立索引，默认情况下es会尝试为你索引所有的字段，但有时候某些类型的字段，无需建立索引，只是用来存储数据即可。只有映射类型(type)和object类型的字段可以设置enabled属性。示例如下：

PUT my_index

{

“mappings”: {

“_doc”: {

“properties”: {

“user_id”: {

“type”: “keyword”

“last_updated”: {

“type”: “date”

“session_data”: {

“enabled”: false

}

PUT my_index/_doc/session_1

{

“user_id”: “kimchy”,

“session_data”: {

“arbitrary_object”: {

“some_array”: [ “foo”, “bar”, { “baz”: 2 } ]

}

“last_updated”: “2015-12-06T18:20:22”

}

上述示例，es会存储session_data对象的数据，但无法通过查询API根据session_data中的属性进行查询。

同样，可以通过put mapping api更新enabled属性。

eager_global_ordinals

全局序列号，它以字典顺序为每个惟一的术语保持递增的编号。全局序号只支持字符串类型（关键字和文本字段）。在关键字字段中，它们在默认情况下是可用的，但文本字段只能fielddata=true时可用。doc_values(和fielddata)也有序号，是特定段（segment）和字段中所有词根(term)的唯一编号。全局序号只是在此之上构建的，它提供了段序号（segment ordinals）和全局序号(global ordinals)之间的映射，全局序号在整个分片中是唯一的。由于每个字段的全局序号与一个分片(shard)的所有段(segment)相关联，因此当一个新的segment(段)变为可见时，需要完全重新构建它们。术语聚合依懒全局序号，首先在分片级别(shard)执行聚合，然后汇聚所有分片的结果(reduce)并将全局序号转换为真正的词根(字符串)，合并后返回聚合后的结果。默认情况下，全局序号是在搜索时加载的，这对提高索引API的速度会非常有利。但是，如果您更加重视搜索性能，，那么在您计划使用的聚合的字段上设置eager_global_ordinals，会对提高查询效率更有帮助。

eager_global_ordinals的意思是预先加载全局序号。

其示例如下：

PUT my_index/_mapping/_doc

{

“properties”: {

“tags”: {

“type”: “keyword”,

“eager_global_ordinals”: true

}

fielddata

为了解决排序与聚合，elasticsearch提供了doc_values属性来支持列式存储，但doc_values不支持text字段类型。因为text字段是需要先分析（分词），会影响doc_values列式存储的性能。es为了支持text字段高效排序与聚合，引入了一种新的数据结构(fielddata)，使用内存进行存储。默认构建时机为第一次聚合查询、排序操作时构建，主要存储倒排索引中的词根与文档的映射关系，聚合，排序操作在内存中执行。因此fielddata需要消耗大量的JVM堆内存。一旦fielddata加载到内存后，它将永久存在。通常情况下，加载fielddata是一个昂贵的操作，故默认情况下，text字段的字段默认是不开启fielddata机制。在使用fielddata之前请慎重考虑为什么要开启fielddata。通常text字段用来进行全文搜索，对于聚合、排序字段，建议使用doc_values机制。

为了节省内存的使用，es提供了另一项机制（fielddata_frequency_filter），允许只加载那些词根频率在指定范围(最大，小值)直接的词根与文档的映射关系，最大最小值可以指定为绝对值，例如数字，也可以基于百分比（百分比的计算是基于整个分段(segment)，其频率分母不是分段(segment)中所有的文档，而是segment中该字段有值的文档）。可以通过min_segment_size参数来指定分段中必须包含的最小文档数量来排除小段，也就是说可以控制fielddata_frequency_filter的作用范围是包含大于min_segment_size的文档数量的段。fielddata_frequency_filter的使用示例如下：

format

在JSON文档中，日期表示为字符串。Elasticsearch使用一组预先配置的格式来识别和解析这些字符串，并将其解析为long类型的数值(毫秒)。

日期格式主要包括如下3种方式：

1）自定义格式

2）date mesh(已在DSL查询API中详解)

3）内置格式

1、自定义格式

首先可以使用java定义时间的格式，例如：

PUT my_index

{

“mappings”: {

“_doc”: {

“properties”: {

“date”: {

“type”: “date”,

“format”: “yyyy-MM-dd HH:mm:ss”

}

2、date mesh

某些API支持，已在DSL查询API中详细介绍过，这里不再重复。

3、内置格式

elasticsearch为我们内置了大量的格式，如下：

epoch_millis

时间戳，单位，毫秒。

epoch_second

时间戳，单位，秒。

date_optional_time

日期必填，时间可选，其支持的格式如下：

在这里插入图片描述

basic_date

其格式表达式为：yyyyMMdd

basic_date_time

其格式表达式为：yyyyMMdd’T’HHmmss.SSSZ

basic_date_time_no_millis

其格式表达式为：yyyyMMdd’T’HHmmssZ

basic_ordinal_date

4位数的年 + 3位(day of year)，其格式字符串为yyyyDDD

basic_ordinal_date_time

其格式字符串为yyyyDDD’T’HHmmss.SSSZ

basic_ordinal_date_time_no_millis

其格式字符串为yyyyDDD’T’HHmmssZ

basic_time

其格式字符串为HHmmss.SSSZ

basic_time_no_millis

其格式字符串为HHmmssZ

basic_t_time

其格式字符串为’T’HHmmss.SSSZ

basic_t_time_no_millis

其格式字符串为’T’HHmmssZ

basic_week_date

其格式字符串为xxxx’W’wwe，4为年，然后用’W’, 2位week of year（所在年里周序号） 1位 day of week。

basic_week_date_time

其格式字符串为xxxx’W’wwe’T’HH:mm:ss.SSSZ.

basic_week_date_time_no_millis

其格式字符串为xxxx’W’wwe’T’HH:mm:ssZ.

date

其格式字符串为yyyy-MM-dd

date_hour

其格式字符串为yyyy-MM-dd’T’HH

date_hour_minute

其格式字符串为yyyy-MM-dd’T’HH:mm

date_hour_minute_second

其格式字符串为yyyy-MM-dd’T’HH:mm:ss

date_hour_minute_second_fraction

其格式字符串为yyyy-MM-dd’T’HH:mm:ss.SSS

date_hour_minute_second_millis

其格式字符串为yyyy-MM-dd’T’HH:mm:ss.SSS

date_time

其格式字符串为yyyy-MM-dd’T’HH:mm:ss.SSS

date_time_no_millis

其格式字符串为yyyy-MM-dd’T’HH:mm:ss

hour

其格式字符串为HH

hour_minute

其格式字符串为HH:mm

hour_minute_second

其格式字符串为HH:mm:ss

hour_minute_second_fraction

其格式字符串为HH:mm:ss.SSS

hour_minute_second_millis

其格式字符串为HH:mm:ss.SSS

ordinal_date

其格式字符串为yyyy-DDD,其中DDD为 day of year。

ordinal_date_time

其格式字符串为yyyy-DDD‘T’HH:mm:ss.SSSZZ,其中DDD为 day of year。

ordinal_date_time_no_millis

其格式字符串为yyyy-DDD‘T’HH:mm:ssZZ

time

其格式字符串为HH:mm:ss.SSSZZ

time_no_millis

其格式字符串为HH:mm:ssZZ

t_time

其格式字符串为’T’HH:mm:ss.SSSZZ

t_time_no_millis

其格式字符串为’T’HH:mm:ssZZ

week_date

其格式字符串为xxxx-'W’ww-e,4位年份，ww表示week of year，e表示day of week。

week_date_time

其格式字符串为xxxx-'W’ww-e’T’HH:mm:ss.SSSZZ

week_date_time_no_millis

其格式字符串为xxxx-'W’ww-e’T’HH:mm:ssZZ

weekyear

其格式字符串为xxxx

weekyear_week

其格式字符串为xxxx-'W’ww,其中ww为week of year。

weekyear_week_day

其格式字符串为xxxx-'W’ww-e,其中ww为week of year,e为day of week。

year

其格式字符串为yyyy

year_month

其格式字符串为yyyy-MM

year_month_day

其格式字符串为yyyy-MM-dd

温馨提示，日期格式时，es建议在上述格式之前加上strict_前缀。

ignore_above

超过ignore_above设置的字符串不会被索引或存储。对于字符串数组，将分别对每个数组元素应ignore_above，超过ignore_above的字符串元素将不会被索引或存储。目前测试的结果为：对于字符串字符长度超过ignore_above会存储，但不索引（也就是无法根据该值去查询）。其测试效果如下：

public static void create_mapping_ignore_above() { // 创建映射

RestHighLevelClient client = EsClient.getClient();

try {

CreateIndexRequest request = new CreateIndexRequest(“mapping_test_ignore_above2”);

XContentBuilder mapping = XContentFactory.jsonBuilder()

.startObject()

.startObject(“properties”)

.startObject(“lies”)

.field(“type”, “keyword”) // 创建关键字段

.field(“ignore_above”, 10) // 设置长度不能超过10

.endObject()

.endObject();

// request.mapping(“user”, mapping_user);

request.mapping(“_doc”, mapping);

System.out.println(client.indices().create(request, RequestOptions.DEFAULT));

} catch (Throwable e) {

e.printStackTrace();

} finally {

EsClient.close(client);

}

public static void index_mapping_ignore_above() { // 索引数据

RestHighLevelClient client = EsClient.getClient();

try {

IndexRequest request = new IndexRequest(“mapping_test_ignore_above2”, “_doc”);

Map<String, Object> data = new HashMap<>();

data.put(“lies”, new String[] {“dingabcdwei”,“huangsw”,“wuyanfengamdule”});

request.source(data);

System.out.println(client.index(request, RequestOptions.DEFAULT));

} catch (Throwable e) {

e.printStackTrace();

} finally {

EsClient.close(client);

}

public static void search_ignore_above() { // 查询数据

RestHighLevelClient client = EsClient.getClient();

try {

SearchRequest searchRequest = new SearchRequest();

searchRequest.indices(“mapping_test_ignore_above2”);

SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();

sourceBuilder.query(

// QueryBuilders.matchAllQuery() // @1

// QueryBuilders.termQuery(“lies”, “dingabcdwei”) // @2

// QueryBuilders.termQuery(“lies”, “huangsw”) // @3

);

searchRequest.source(sourceBuilder);

SearchResponse result = client.search(searchRequest, RequestOptions.DEFAULT);

System.out.println(result);

} catch (Throwable e) {

e.printStackTrace();

} finally {

EsClient.close(client);

}

代码@1：首先查询所有数据，其_souce字段的值为：“_source”:{“lies”:[“dingabcdwei”,“huangsw”,“wuyanfengamdule”]}，表名不管字符串的值是否大于ignore_above指定的值，都会存储。

代码@2：用超过ignore_above长度的值尝试去搜索，发现无法匹配到记录，表明并未加入到倒排索引中。

需要zi料+ 绿色徽【vip1024b】

代码@3：用未超过ignore_above长度的值尝试去搜索，发现能匹配到记录。

注意：在es中,ignore_above的长度是字符的长度，而es其底层实现lucene是使用字节进行计算的，故，如果要反馈到lucnce，请注意关系。

ignore_malformed

试图将错误的数据类型索引到字段中，默认情况下会抛出异常，并拒绝整个文档。ignore_malformed参数，如果设置为真，允许错误被忽略。格式不正确的字段不建立索引，但是文档中的其他字段正常处理。可以创建索引时，设置index.mapping.ignore_malformed 配置项来定义索引级别的默认值，其优先级为字段级、索引级。