1、为什么要有父子文档?
(1)、nested object的数据建模,是采取类似冗余数据的方式,将多个数据都放在一起,维护成本就比较高;
(2)、parent-child数据建模,采取的是类似于关系型数据库的三范式,多个实体都分割开来,每个实体之间都通过一些关联方式,进行了父子关系的关联,各种数据不需要都放在一起,父doc和子doc分别在进行更新的时候,都不会影响对方;
为什么父子文档性能好?虽然数据实体之间分割开来,但是我们在搜索的时候,由es自动为我们处理底层的关联关系,并且通过一些手段保证搜索性能。
2、父子文档核心:父子关系元数据映射,用于确保查询时候的高性能,但是有一个限制:父子数据必须存在于一个shard中;(多个type之间有父子关系,用_parent指定父type);
父子关系数据存在一个shard中,而且映射其关联关系的元数据,因此在搜索父子关系数据的时候,不用跨分片。
3、实例:一个IT公司有多个研发中心,每个研发中心有多个员工
(1)、建立mapping
PUT /company
{
"mappings": {
"rd_center": {},
"employee": {
"_parent": {
"type": "rd_center"
}
}
}
}
在员工employee中定义一个_parent,类型为部门rd_center
在员工employee中定义一个_parent,类型为部门rd_center
(2)、填充部门数据
POST /company/rd_center/_bulk
{ "index": { "_id": "1" }}
{ "name": "北京研发总部", "city": "北京", "country": "中国