hive
纯欲天花板_
这个作者很懒,什么都没留下…
展开
-
hive增加表头、数据库名显示配置
修改 hive-site.xml 配置<property> <name>hive.cli.print.header</name> <value>true</value> <description>是否打印表头,默认值为false,即不打印</description></property><property> <name>hive.cli.print.c原创 2022-02-11 19:29:07 · 649 阅读 · 0 评论 -
Hive求连续登录问题
连续登陆问题在电商、物流和银行可能经常会遇到这样的需求:统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等数据:注意:每个用户每天可能会有多条记录id datestr amount1,2019-02-08,6214.23 1,2019-02-08,6247.32 1,2019-02-09,85.63 1,2019-02-09,967.36 1,2019-02-10,85.69 1,2019-02-12,769.85 1,2019-02-13,943.8原创 2021-11-28 14:46:38 · 343 阅读 · 0 评论 -
Hive自定义函数UserDefineFunction
Hive自定义函数UserDefineFunctionUDF:一进一出创建maven项目,并加入依赖 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version>原创 2021-11-28 14:32:22 · 409 阅读 · 0 评论 -
Hive开窗函数
Hive 开窗函数在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.测试数据111,69,class1,department1112,80,class1,department1113,74,class1,department1114,94,class1,department1115,93,cla原创 2021-11-26 00:25:45 · 1080 阅读 · 0 评论 -
hive动态分区
Hive动态分区有的时候我们原始表中的数据里面包含了 ‘‘日期字段 dt’’,我们需要根据dt中不同的日期,分为不同的分区,将原始表改造成分区表。hive默认不开启动态分区动态分区:根据数据中某几列的不同的取值 划分 不同的分区开启Hive的动态分区支持# 表示开启动态分区hive> set hive.exec.dynamic.partition=true;# 表示动态分区模式:strict(需要配合静态分区一起使用)、nostrict# strict: insert into t原创 2021-11-25 20:01:58 · 1044 阅读 · 0 评论 -
Hive分区和分桶
Hive 分区分区表实际上是在表的目录下在以分区命名,建子目录作用:进行分区裁剪,避免全表扫描,减少MapReduce处理的数据量,提高效率一般在公司的hive中,所有的表基本上都是分区表,通常按日期分区、地域分区分区表在使用的时候记得加上分区字段分区也不是越多越好,一般不超过3级,根据实际业务衡量建立分区表:create external table students_pt1( id bigint, name string, age int, gende原创 2021-11-25 19:23:40 · 207 阅读 · 0 评论 -
hive建表、内部表和外部表
Hive建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名,字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT table_comment] // 分区 [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] // 分桶 [CLUSTE原创 2021-11-25 19:07:08 · 1070 阅读 · 0 评论