Hive
nbszg
这个作者很懒,什么都没留下…
展开
-
使用Hive的窗口函数进行数据分析——以股票市场分析为例
声明:本文主要是实现利用Hive常用的窗口函数和一些数据分析思维分析数据,只是套用在股票数据的例子上,因此并不适用于提高投资技巧!我们先看一下常用Hive中常用的窗口:PRECEDING:往前FOLLOWING:往后CURRENT ROW:当前行UNBOUNDED:起点(一般结合PRECEDING,FOLLOWING使用)UNBOUNDED PRECEDING 表示该窗口最前面的行(起...原创 2020-04-09 15:12:44 · 1181 阅读 · 1 评论 -
Hive Hive性能调优
最近慢慢把工作中涉及到的Hive知识和优化方法整理一下在实际业务中,我们使用的Hive通常是基于map reduce计算方式的。通俗的来讲,map负责映射或筛选关系(比如where,±等操作),reduce负责整合或这说规约操作(如group by,join等)。通常我们要评估我们所写的hql性能,需要先知道所写hql的执行过程和mapredcue过程。此处引用一张网上的图片,很好的表示和m...原创 2020-03-26 11:47:09 · 322 阅读 · 0 评论 -
Hive 使用动态分区
在实际业务中,我们常常去要将数据根据某一或某几个字段的值插入到不同的分区中。比如我们有一张全量的订单表,我们想让其变为增量表。具体的,我们想根据其开单日期open_date动态插入到新标表table_A中。其中open_date就是table_A的分区。显然手动使用where条件筛选open_date在插入table_A的对应分区是不现实的。此时使用Hive的动态分区可以实现一次将数据插入到对应...原创 2020-03-26 10:57:09 · 323 阅读 · 0 评论 -
Hive:left join VS left semi join VS in 的联系与区别
Hive中,左关联有left join和left semi join两种方式,两种方式存在很大的差别。简单总结来说:left join就是我们平时所用的left join。而当A表left semi join关联B表时,结果表只能有A表的列,且B表只能在on中设置过滤条件,并且当B表有重复数据时,A表只会关联B对应值一次。某种意义上来说left semi join与in的功能非常相似。当主...原创 2019-12-19 20:21:00 · 3054 阅读 · 4 评论 -
Hive常用系统函数-聚合函数
关于Hive常用的聚合函数Hive的聚合函数,大多可以group by 组合使用函数参数格式解释countcount(*), count(expr),count(distinct expr)返回查找的总行数,count(*)返回的行数包括null值;count(expr)和count(distinct expr) 不包括null值sumsum(col), su...原创 2019-12-16 10:55:13 · 2338 阅读 · 2 评论 -
Hive常用系统函数-数学函数
关于Hive常用的字符串处理函数:函数参数格式解释roundround(DOUBLE a, INT d)将 a精确到d位小数,d为可选参数,d空缺时精确到整数位(精确方式为四舍五入)broundbround(DOUBLE a, INT d)将 a使用HALF_EVEN方式精确到d位小数,d为可选参数(HALF_EVEN的方式使末尾数字为偶数)。例如:broun...原创 2019-12-12 16:19:00 · 290 阅读 · 0 评论 -
Hive常用系统函数-字符串函数
关于Hive常用的字符串处理函数:函数参数格式内容asciiascii(string str)返回传入字符串的第一个字符的ASCII编码base64base64(binary bin)将传入的二进制参数转换为base 64 字符串character_lengthcharacter_length(string str)返回字符串长度(字符串需为UTF8...原创 2019-12-11 11:35:36 · 912 阅读 · 0 评论 -
Hive常用系统函数-条件函数
关于Hive常用的条件处理函数:函数参数格式内容ifif(boolean testCondition, T valueTrue, T valueFalseOrNull)如果testCondition为True则返回valueTrue,否则返回valueFalse,没有指定valueFals则返回nullisnullisnull( a )如果字段a值的值为nul...原创 2019-12-09 16:11:27 · 221 阅读 · 0 评论 -
Hive常用系统函数-时间函数
关于HIve常用的时间处理函数函数参数格式内容from_unixtimefrom_unixtime(bigint unixtime[, string format])将unix时间戳转换为当前所在时区的字符串时间,格式为"yyyy-MM-dd HH:mm:ss"unix_timestampunix_timestamp()以秒为单位获取当前的Unix时间戳。...原创 2019-12-09 12:48:33 · 1079 阅读 · 0 评论