hive
hive是建立在Hadoop上的数据仓库基础架构,将sql语句转化为MapReduce在Hadoop上执行。
hive优化
表优化:分区表,防止全表扫描,桶表。
sql优化:map端join,where优化(先执行where缩小数据),groupby自动优化
job优化:并行执行,本地执行,合并输入、输出小文件,压缩数据。
map优化:map端聚合,推测执行
reduce优化:设置reduce数目,推测执行
hive
hive是建立在Hadoop上的数据仓库基础架构,将sql语句转化为MapReduce在Hadoop上执行。
hive优化
表优化:分区表,防止全表扫描,桶表。
sql优化:map端join,where优化(先执行where缩小数据),groupby自动优化
job优化:并行执行,本地执行,合并输入、输出小文件,压缩数据。
map优化:map端聚合,推测执行
reduce优化:设置reduce数目,推测执行