hive
风zi
这个作者很懒,什么都没留下…
展开
-
十六、hive sql求连续三天购买指定需求
在实际开发中经常会有一些求连续类型指标,如系统连续几天登录、商城连续几天下单客户,等等关于连续时间类型的指标问题需求:下面会做一个求连续三天下单的客户1、测试数据001 zs p001 2020-02-04002 zs p005 2020-03-05003 zs p006 2020-03-06004 zs p002 2020-03-07005 zs p001 2020-03-19006 ls p002 2020-03-04007 ls p001 2020-03-05008 ww p002原创 2020-05-27 21:22:47 · 1440 阅读 · 2 评论 -
十五、hive-自定义udf、udtf函数
一、系统内置函数查看1.查看系统自带的函数hive> show functions;2.显示自带的函数的用法hive> desc function upper;3.详细显示自带的函数的用法hive> desc function extended upper;二、自定义函数介绍1、Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。2、当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(U原创 2020-05-27 17:56:24 · 770 阅读 · 0 评论 -
十四、getjson、split、substring等函数使用
1、substringhive (default)> select substring('abcde',1);OK_c0abcdeTime taken: 1.661 seconds, Fetched: 1 row(s)hive (default)> select substring('abcde',1,5);OK_c0abcdeTime taken: 0.101 seconds, Fetched: 1 row(s)hive (default)> select su原创 2020-05-27 12:43:57 · 501 阅读 · 0 评论 -
十三、Hive中日期操作总结
1、获取当前时间hive (default)> select current_date;2020-05-26hive (default)> select current_timestamp ;2020-05-26 16:03:09.0122、date_format函数-日期格式化hive (default)> select current_date,date_format(current_date,'yyyy/MM');2020-05-26 2020/053原创 2020-05-26 16:23:41 · 185 阅读 · 0 评论 -
十二、over开窗行数,rank排序函数介绍
一、函数介绍1、OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化,例如分区排序;over函数相关参数:partition by:分区,窗口大小为分区order by:一般与分区相结合使用,窗口大小为排序后的数据起点到当前行CURRENT ROW:当前行n PRECEDING:往前n行数据n FOLLOWING:往后n行数据UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UNBOUNDED FOLLOWING表示到后面原创 2020-05-26 15:35:38 · 909 阅读 · 0 评论 -
十一、行转列、列转行函数
一、行转列1、相关行数CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串;CONCAT_WS(separator, str1, str2,…):它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;COLLECT_SET(col):函数只接受基本原创 2020-05-26 11:18:25 · 5033 阅读 · 0 评论 -
十、hive异常记录
1、TezSession has already shutdownCaused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown. Application application_1546781144082_0005 failed 2 times due to AM Container for appattempt_1546781144082_0005_000002 exited with exit原创 2020-05-26 10:11:41 · 2242 阅读 · 0 评论 -
九、Hive--Tez安装
28 rows selected (33.484 seconds)0: jdbc:hive2://hadoop202:10000> select * from emp order by sal desc;Time taken: 15.572 seconds, Fetched: 28 row(s)Caused by: java.lang.ClassNotFoundException: org.apache.tez.dag.api.SessionNotRunningCaused by:原创 2020-05-26 10:04:42 · 257 阅读 · 0 评论 -
八、排序介绍--四个by
一、全局排序(Order By)Order By:全局排序,一个Reducer1、使用 ORDER BY 子句排序ASC(ascend): 升序(默认)DESC(descend): 降序2、ORDER BY 子句在SELECT语句的结尾3、案例实操 (1)查询员工信息按工资升序排列hive (default)> select * from emp order by sal; (2)查询员工信息按工资降序排列hive (default)> select * from emp o原创 2020-05-26 09:34:28 · 276 阅读 · 0 评论 -
七、Hive中的常用基本查询与基本函数使用
创建位置表create table if not exists default.location(loc int,loc_name string)row format delimited fields terminated by '\t';2.导入数据hive (default)> load data local inpath '/opt/module/datas/location.txt' into table default.location;一、基本查询基本与关系型数据库原创 2020-05-25 15:35:30 · 553 阅读 · 0 评论 -
六、Hive-DML数据导入导出操作
一、数据导入1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' overwrite | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表(3)inpath:表示加载数据的路径(4)overwrite:表示覆盖表中已有数据,否则表示追加(5原创 2020-05-19 22:29:20 · 2303 阅读 · 0 评论 -
五、Hive之DDL数据定义
一、数据库操作1、创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> create database db_hive;FAILED: Execution Error, return code 1 from org.apache原创 2020-05-19 00:06:11 · 214 阅读 · 0 评论 -
四、Hive数据类型
一、基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。二、集合数据类型Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。三、集合类型案例实操1、假设某表有如下一行,我们用JSON格式来表示其数据原创 2020-05-18 17:26:51 · 530 阅读 · 0 评论 -
三、Hive常见属性配置
1、Hive数据仓库位置配置1)Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下。2)在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹。3)修改default数据仓库原始位置(将hive-default.xml.template如下配置信息拷贝到hive-site.xml文件中)。<property><name>hive.metastore.原创 2020-05-18 16:57:38 · 231 阅读 · 0 评论 -
二、hive安装
一、hive安装地址安装前所需环境:hadoop、mysql1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/4.github地址https://github.com/apache/hive二、hive安装1、Hive安装及配置(1)把apac原创 2020-05-18 16:50:42 · 253 阅读 · 0 评论 -
一、hive介绍
一、什么是hive?Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。HIVE本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上二、Hive的优缺点1、优点1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。2)避免了去写MapReduce,减原创 2020-05-18 16:16:18 · 304 阅读 · 0 评论 -
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient由于修改了虚拟机ip导致mysql连接不上其他问题解决方式:https://blog.csdn.net/hhj724/article/details/79094138原创 2020-05-18 15:01:53 · 160 阅读 · 0 评论