数据仓库
TomAndersen
新目标:喜欢上读书
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive之配置和使用LZO压缩
前言 OS:CentOS 7 Hive:2.3.0 Hadoop:2.7.7 MySQL Server:5.7.10 Hive官方手册:LanguageManual LZO 在配置Hive使用lzo压缩功能之前,需要保证Hadoop集群中lzo依赖库的正确安装,以及hadoop-lzo依赖的正确配置,可以参考:Hadoop配置lzo压缩 温馨提示:Hive自定义组件打包时,不要同时打包依赖,避免各种版本冲突,只将额外的依赖添加到classpath中即可 配置过程 一、配置H原创 2020-06-21 22:40:24 · 4460 阅读 · 1 评论 -
Hive统计连续登录n天的用户登录信息
前言 Hadoop:2.7.7 Hive:2.3.0 本文主要练习如何使用Hive SQL统计练习登录n天的用户登录信息,主要使用窗口函数。 测试用表 表数据: 1 Alise 2020-5-12 09:25:56 2 Alise 2020-5-13 10:25:30 3 Alise 2020-5-15 05:25:05 4 Alise 2020-5-15 15:23:11 5 Alise 2020-5-16 21:06:14 6 Bob 2020-5-12 11:17:48 7 Bob 2020-5原创 2020-05-29 21:17:09 · 1973 阅读 · 0 评论 -
Hive中distinct和group by去重性能对比
前言 操作系统:CentOS 7 hadoop:2.7.7 hive:2.3.0 实验目的:本文主要测试在某字段各种不同值个数情况下,记录对此字段其使用DISTINCT/GROUP BY去重的查询语句执行时间,对比两者在不同场景下的去重性能 实验表格: 表名 记录数 查询字段不同值个数 DISTINCT GROUP BY tab_1 100000 3 tab_2 100000 10000 实验过程 1)创建测试用表 drop table if exists tab_1;原创 2020-05-29 11:34:39 · 826 阅读 · 0 评论 -
Hive2.3.0之入门级安装教程
前言 Hadoop:2.7.7 Hive:2.3.0 MySQL:5.7.10 JDK:1.8.0_221 mysql-connector-java:5.1.38 下载地址 Apache软件归档分发目录 Apache Hive 1. Hive安装部署 部署Hive的前提是保证Hadoop集群(或者standalone本地模式)已经安装并配置正确 1)解压Hive到指定路径下 tar -xz...原创 2020-05-07 09:47:45 · 978 阅读 · 0 评论
分享