虽然都是基于Lucene,Elasticsearch默认运行使用时,是不需要像Solr一样配置索引字段文件的,从开发者角度来看数据结构很灵 活,只需要向数据库提交任意格式的JSON就行了,实际上,Elasticsearh对Lucene的索引文档映射进行了封装,每次提交时都是在原有数据 结构上检查并增加,而且,并不是所有的数据结构改变都能对后续数据生效。这样一来,需要对数据结构进行更多灵活控制时,Elaticsearch远远比 Solr复杂。这篇文章将给大家介绍在Elasticsearch中Mappings的主要类型和工作原理,以及如何使用Shell和API进行操作。
Elasticsearch的Mappings分为两种类型,索引文件(index)的根级别Mapping、文档类型(type)级别的Mapping,类型Mapping下又分为预置默认的Fields和自定义源(source)的Fields.
Index Mapping
根级别的Mapping会被此索引文件下所有的文档继承,在操作中,使用 “_default_” 来识别。在创建Index时,可以同时创建默认的Mapping,注意的是,这个级别的Mapping只能在创建索引时指定才会生效。
curl -XPOST localhost:9200/myindex -d '{ "mappings" : { "_default_" : { "_source" : { "enabled" : false } } } }'
使用JavaScript API创建默认Mapping
client.indices.create({ index:"myindex"}).then(function(body){var mapping ={"_default_":{"_source":{"enabled":"false"}}}; client.indices.putMapping({ index:"myindex", body: mapping }).then(function(body){ console.log("created");});});
查询定义的Mapping
http://localhost:9200/_mapping?pretty
可以看到输出
"myindex":{"mappings":{"_default_":{"_source":{"enabled":false}}}}
Type Mapping : Default Fields
默认的映射字段的命名都是以下划线开始,具体可以参考Elasticsearch Fields文档。需要特别提到的是_timestamp字段,它可以为每个索引文档自动创建时间戳,但默认这个字段并未启用,在MongoDB中,ID其实就是TimeStamp,看来Elasticsearch不是很重视时间序列。
如果需要启用_timestamp,必须在创建索引时指定Mapping,否则,即使以后更改,新的数据也是无法加上时间戳的。下面为索引中所有文档类型启用时间戳:
curl -XPOST localhost:9200/myindex -d '{ "mappings" : { "_default_" : { "_timestamp" : { "enabled" : true, "store" : true } } } }'
其中的 “store” : true,如果对Lucene或Solr比较熟悉应该不陌生,启用store后索引文件中会保存原始值,如果只作查询范围不需要显示的话,可以让它保持默 认值false. 如果只需要为某个文档类型启用_timestamp,将上面的 “_default_” 改为文档类型名称即可,但依然需要在创建第一个文档之前指定。
client.indices.create({ index:"myindex"}).then(function(body){var mapping ={"mydoc":{"_timestamp":{"enabled":"true","store":"true"}}}; client.indices.putMapping({ index:"myindex", type:"mydoc", body: mapping }).then(function(body){ console.log("created");});});
查询指定文档的Mapping
http://localhost:9200/myindex/mydoc/_mapping?pretty
"myindex":{"mappings":{"mydoc":{"_timestamp":{"enabled":true,"store":true},"properties":{}}}}
对于默认的字段,也需要在索引时指定其值,否则无法创建索引文档。
client.index({ index:'myindex', type:'mydoc', timestamp:newDate(), body: req.body }).then(function(body){ res.send(200,"ok");},function(error){});
查询_timestamp时需要在fileds中指定
http://localhost:9200/myindex/mydoc/1?pretty=1&fields=_source,_timestamp
默认类型是long
{"_index":"myindex","_type":"mydoc","_id":1,"_version":1,"found":true,"_source":{},"fields":{"_timestamp":1412329642820}}
Type Mapping : Custom Fields
自定义字段其实是全部放置在默认字段_source中的,在Mappings对应的是Properties节点。这类字段可以在任何时间进行更新,Elasticsearch可以处理类型冲突和合并。
$ curl -XPUT 'http://localhost:9200/myindex/mydoc/_mapping'-d ' { "mydoc" : { "properties" : { "message" : {"type" : "string", "store" : true } } } }
从这里我们可以看到,在数据结构上,即使是最灵活的Elasticsearch,也是需要预先对索引和文档类型级别的字段进行设计和定义,合并字段时是否需要重新索引,我并没有测试过,这点似乎还不及MongoDB的文档结构灵活