hadoop
咕唧咕唧shuboLK
这个作者很懒,什么都没留下…
展开
-
数据仓库--Hive之常用优化方法
以下列举在使用数据仓库时常用的优化方法:1、join连接时的优化:当三个或多个以上的表进行join操作时,如果每个on使用相同的字段连接时只会产生一个mapreduce。2、join连接时的优化:当多个表进行查询时,从左到右表的大小顺序应该是从小到大。原因:hive在对每行记录操作时会把其他表先缓存起来,直到扫描最后的表进行计算3、在where字句中增加分区过滤器。4、当可以使用left semi转载 2015-05-18 17:00:06 · 5338 阅读 · 0 评论 -
数据仓库工具--Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。何为Hive? Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列转载 2015-05-18 16:49:55 · 4823 阅读 · 0 评论