Hive
Gru杨
掌握用法,深入理解,不断实践,反复总结
展开
-
大数据中的压缩
目录压缩优缺点压缩格式压缩的使用场景压缩优缺点优点:节省磁盘空间,提升磁盘利用率,加速磁盘/网络IO;缺点:解压/压缩是需要CPU的,压缩会使集群cpu利用率高,所以当集群负载高了就不要使用压缩了;总结来说,需不需要使用压缩是磁盘和CPU的取舍,也反映了大数据层面的任何调优都不是万能的,都需要根据实际需求来做调优。压缩格式大数据中常用的压缩格式:Bzip2,Gzip,Lzo,Lz4,S...原创 2019-07-07 16:46:41 · 363 阅读 · 0 评论 -
Hive_01 Hive基础
Hive基础HiveHiveHive是基于Apache Hadoop的数据仓库基础架构,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,再将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。但是Hive不适用于在线数据处理,它最适用于传统的数据仓库任务。上图是Hive与Hadoop1.x的工...原创 2019-03-25 09:50:05 · 218 阅读 · 0 评论 -
Java、Scala、Hive中“值匹配”的不同写法
Java的switch case switch(表达式){ case 常量1: 语句1; // break; case 常量2: 语句2; // break; … … case 常量N: 语句N; // break; default: 语句; // break; }Scala的match 变量 match { case 值1 => 代码 case ...原创 2019-07-09 09:15:21 · 148 阅读 · 0 评论 -
Hive_02统计各个城市下最受欢迎的TopN产品
目录概述步骤概述需求:统计各个城市所属区域下最受欢迎的Top 3产品分析:各个城市的TopN产品,是分组求TopN问题,需要使用窗口函数数据:城市区域对应信息、产品信息表以及用户点击日志其中 城市区域对应信息、产品信息表 存在MySQL中,而我们需要在Hive中去分析数据,所以需要将MySQL中的表导入Hive中,这里使用sqoop步骤创建 用户点击行为日志表 ,并load数据...原创 2019-07-09 14:59:06 · 988 阅读 · 0 评论 -
Hive_03 Hive on Hadoop执行流程
常用的SQL不外乎分为两种 select yyy, 聚合函数 from xxx group by yyy; select a.*, b.* from a join b on a.id=b.id; SQL AST QB Operator Tree Operator Tree Task Tree ...原创 2019-07-09 19:24:32 · 279 阅读 · 0 评论 -
Hive_04 使用sql进行增量结合历史数据分析
转载自:https://blog.csdn.net/qq_32641659/article/details/89435726目录需求Hive SQL的统计分析需求已知用户的月度点击次数信息,如下图,第一列为用户名称,第二列为月份,第三列为该月用户点击次数。要求扩充维度,每行增加两列信息,包括目前最大点击次数和目前总点击次数。Hive SQL的统计分析创建月度点击统计表CREATE...转载 2019-07-11 15:23:52 · 261 阅读 · 0 评论