深入学习Gremlin（8）：数据分组与去重

最新推荐文章于 2025-03-25 16:44:18 发布

Jermy Li

最新推荐文章于 2025-03-25 16:44:18 发布

阅读量1.4w

点赞数 8

分类专栏：图数据库 Gremlin 文章标签： Gremlin TinkerPop Graph Database HugeGraph 图数据库

本文链接：https://blog.csdn.net/javeme/article/details/82769457

版权

HugeGraph 同时被 3 个专栏收录

26 篇文章

订阅专栏

图数据库

24 篇文章

订阅专栏

Gremlin

16 篇文章

订阅专栏

第8期 Gremlin Steps：
group()、groupCount()、dedup()、by()

本系列文章的Gremlin示例均在HugeGraph图数据库上执行，环境搭建可参考准备Gremlin执行环境，本文示例均以其中的“TinkerPop关系图”为初始数据，如下图所示：

init-data

上一期：深入学习Gremlin（7）：查询结果排序

数据分组与去重说明

Gremlin支持对数据进行分组和去重。

数据分组是指：从某个维度上对拥有相同点的数据进行分组，比如根据年龄分组、根据出生省份分组等。

数据去重是指：去除结果集中相同的元素，或者去除在某个维度上具有相同点的数据，比如根据年龄选出一些代表，每个年龄最多只能有一个人。

下面讲解实现上述功能的具体Step：

group(): 对结果集进行分组，可通过by(property)来指定根据什么维度进行分组，可称维度为分组键；如果不指定维度则以元素id作为分组键，相当于重复的元素被分为一组。每一组由分组键+组内元素列表构成。如果有需要也可对每一组的元素列表进行reduce操作，依然使用by()语句，如by(count())对组内元素计数。
groupCount(): 对结果集进行分组，并统计每一组的元素个数。每一组由分组键+组内元素数量构成。
dedup(): 去除结果集中相同的元素，可通过by(property)来指定根据什么维度进行去重。
by(): 语义上一般指“根据什么维度”，与上述语句配合使用，如group().by()、dedup().by()等。也可与其它语句配合，如前面讲到的排序order().by()及路径path().by()等。

实例讲解

下面通过实例来深入理解每一个操作。

Step group()：对结果集进行分组

示例1：

// 不指定任何维度进行分组
g.V().hasLabel('person').group()

g.V().hasLabel().group()

示例2：

// 不指定任何维度进行分组
// 但数据集中有重复的元素
// 重复的元素将会被分为一组
g.V().both().hasLabel('person').group()

g.V().both().hasLabel().group()

示例3：

// 根据年龄进行分组
g.V().hasLabel('person').group().by('age')

g.V().hasLabel().group().by()

示例4：

// 根据年龄进行分组
// 并统计各个年龄的人数
g.V().hasLabel('person')
 .group().by('age').by(count())

g.V().hasLabel().group().by().by(count)

示例5：

// 根据顶点类别进行分组
// 并统计各个类别的数量
g.V().group().by(label).by(count())

g.V().group().by(label).by(count)

Step groupCount()：对结果集进行分组计数

示例1：

// 不指定任何维度进行分组计数
g.V().hasLabel('person').groupCount()

g.V().hasLabel().groupCount()

示例2：

// 不指定任何维度进行分组计数
// 但数据集中有重复的元素
// 重复的元素将会被分为一组
g.V().both().hasLabel('person').groupCount()

g.V().both().hasLabel().groupCount()

示例3：

// 根据年龄进行分组计数
g.V().hasLabel('person')
 .groupCount().by('age')

g.V().hasLabel().groupCount().by()

Step dedup()：去除结果集中重复的元素

示例1：

// 对一组含有重复顶点的数据进行去重
g.V().both().hasLabel('person').dedup()

g.V().both().hasLabel().dedup()

示例2：

// 查看所有人当中有哪几种年龄
// 人之间的年龄是可能有重复的，
// 通过dedup去除掉重复的年龄
g.V().hasLabel('person')
 .values('age').dedup()

g.V().hasLabel().values().dedup()

示例3：

// 从各个年龄的人中选出一个代表
g.V().hasLabel('person').dedup().by('age')

g.V().hasLabel().dedup().by()

综合运用

获得各个地方人们的平均年龄

// 根据地域分组，并得到各个组的平均年龄
g.V().hasLabel('person').group()
 .by('addr').by(values('age').mean())

mean-age-by-addr

统计顶点的边数量的分布情况

// 拥有相同数量边的顶点作为一组
// 并获取每一组的顶点数量
// 结果相当于：拥有m条边的顶点有n个
g.V().groupCount().by(bothE().count())

vertex-group-by-edges-count