数据仓库
TomAndersen
新目标:喜欢上读书
展开
-
Hive之配置和使用LZO压缩
前言OS:CentOS 7Hive:2.3.0Hadoop:2.7.7MySQL Server:5.7.10Hive官方手册:LanguageManual LZO在配置Hive使用lzo压缩功能之前,需要保证Hadoop集群中lzo依赖库的正确安装,以及hadoop-lzo依赖的正确配置,可以参考:Hadoop配置lzo压缩温馨提示:Hive自定义组件打包时,不要同时打包依赖,避免各种版本冲突,只将额外的依赖添加到classpath中即可配置过程一、配置H原创 2020-06-21 22:40:24 · 4028 阅读 · 1 评论 -
Hive统计连续登录n天的用户登录信息
前言Hadoop:2.7.7Hive:2.3.0本文主要练习如何使用Hive SQL统计练习登录n天的用户登录信息,主要使用窗口函数。测试用表表数据:1 Alise 2020-5-12 09:25:562 Alise 2020-5-13 10:25:303 Alise 2020-5-15 05:25:054 Alise 2020-5-15 15:23:115 Alise 2020-5-16 21:06:146 Bob 2020-5-12 11:17:487 Bob 2020-5原创 2020-05-29 21:17:09 · 1764 阅读 · 0 评论 -
Hive中distinct和group by去重性能对比
前言操作系统:CentOS 7hadoop:2.7.7hive:2.3.0实验目的:本文主要测试在某字段各种不同值个数情况下,记录对此字段其使用DISTINCT/GROUP BY去重的查询语句执行时间,对比两者在不同场景下的去重性能实验表格:表名记录数查询字段不同值个数DISTINCTGROUP BYtab_11000003tab_210000010000实验过程1)创建测试用表drop table if exists tab_1;原创 2020-05-29 11:34:39 · 675 阅读 · 0 评论 -
Hive2.3.0之入门级安装教程
前言Hadoop:2.7.7Hive:2.3.0MySQL:5.7.10JDK:1.8.0_221mysql-connector-java:5.1.38下载地址Apache软件归档分发目录Apache Hive1. Hive安装部署部署Hive的前提是保证Hadoop集群(或者standalone本地模式)已经安装并配置正确1)解压Hive到指定路径下tar -xz...原创 2020-05-07 09:47:45 · 798 阅读 · 0 评论