Hive、Spark Sql中为什么说group by是distinct的优化?
用LogicalPlan带你一探究竟
无论是Hive还是SparkSql都会生成LogicalPlan,PhysicalPlan只要我们明白了 他在底层如何转换如何优化的就能知道group by和distinct有何区别。
group by
sql: “select name from student group by name”
distinct
sql:“select distinct name from student”
看图说话
我们会发现distinct的逻辑计划在底层生成的优化后的逻辑化转换成了group by的逻辑计划