第8期 Gremlin Steps:
group()
、groupCount()
、dedup()
、by()
本系列文章的Gremlin示例均在HugeGraph图数据库上执行,环境搭建可参考准备Gremlin执行环境,本文示例均以其中的“TinkerPop关系图”为初始数据,如下图所示:
数据分组与去重说明
Gremlin支持对数据进行分组和去重。
数据分组是指:从某个维度上对拥有相同点的数据进行分组,比如根据年龄分组、根据出生省份分组等。
数据去重是指:去除结果集中相同的元素,或者去除在某个维度上具有相同点的数据,比如根据年龄选出一些代表,每个年龄最多只能有一个人。
下面讲解实现上述功能的具体Step:
group()
: 对结果集进行分组,可通过by(property)来指定根据什么维度进行分组,可称维度为分组键;如果不指定维度则以元素id作为分组键,相当于重复的元素被分为一组。每一组由分组键+组内元素列表构成。如果有需要也可对每一组的元素列表进行reduce操作,依然使用by()语句,如by(count())对组内元素计数。groupCount()
: 对结果集进行分组,并统计每一组的元素个数。每一组由分组键+组内元素数量构成。dedup()
: 去除结果集中相同的元素,可通过by(property)
来指定根据什么维度进行去重。by()
: 语义上一般指“根据什么维度”,与上述语句配合使用,如group().by()
、dedup().by()
等。也可与其它语句配合,如前面讲到的排序order().by()
及路径path().by()
等。
实例讲解
下面通过实例来深入理解每一个操作。
-
Step
group()
:对结果集进行分组示例1:
// 不指定任何维度进行分组 g.V().hasLabel('person').group()
示例2:
// 不指定任何维度进行分组 // 但数据集中有重复的元素 // 重复的元素将会被分为一组 g.V().both().hasLabel('person').group()
示例3:
// 根据年龄进行分组 g.V().hasLabel('person').group().by('age')
示例4:
// 根据年龄进行分组 // 并统计各个年龄的人数 g.V().hasLabel('person') .group().by('age').by(count())
示例5:
// 根据顶点类别进行分组 // 并统计各个类别的数量 g.V().group().by(label).by(count())
-
Step
groupCount()
:对结果集进行分组计数示例1:
// 不指定任何维度进行分组计数 g.V().hasLabel('person').groupCount()
示例2:
// 不指定任何维度进行分组计数 // 但数据集中有重复的元素 // 重复的元素将会被分为一组 g.V().both().hasLabel('person').groupCount()
示例3:
// 根据年龄进行分组计数 g.V().hasLabel('person') .groupCount().by('age')
-
Step
dedup()
:去除结果集中重复的元素示例1:
// 对一组含有重复顶点的数据进行去重 g.V().both().hasLabel('person').dedup()
示例2:
// 查看所有人当中有哪几种年龄 // 人之间的年龄是可能有重复的, // 通过dedup去除掉重复的年龄 g.V().hasLabel('person') .values('age').dedup()
示例3:
// 从各个年龄的人中选出一个代表 g.V().hasLabel('person').dedup().by('age')
综合运用
-
获得各个地方人们的平均年龄
// 根据地域分组,并得到各个组的平均年龄 g.V().hasLabel('person').group() .by('addr').by(values('age').mean())
-
统计顶点的边数量的分布情况
// 拥有相同数量边的顶点作为一组 // 并获取每一组的顶点数量 // 结果相当于:拥有m条边的顶点有n个 g.V().groupCount().by(bothE().count())