会导致数据扩展的操作;
如何避免数据扩展;
一 countDistinct操作
1. 扩展原因
Spark的count distinct操作可能会导致数据扩展的原因是,它需要在执行操作之前对所有不同的值
进行分组。这意味着Spark需要将所有数据加载到内存中,并将其按照不同的值进行分组,以计算
唯一值的数量。
2. 解决办法
count distinct 改变成 count, 如何保证聚合维度下主键的唯一性.
会导致数据扩展的操作;
如何避免数据扩展;
1. 扩展原因
Spark的count distinct操作可能会导致数据扩展的原因是,它需要在执行操作之前对所有不同的值
进行分组。这意味着Spark需要将所有数据加载到内存中,并将其按照不同的值进行分组,以计算
唯一值的数量。
2. 解决办法
count distinct 改变成 count, 如何保证聚合维度下主键的唯一性.