大数据数据库
文章平均质量分 87
大数据的数据库知识
刘文钊1
做Oracle EBS开发,技术宅。
嗯,该做大数据了,突然成了新人。
展开
-
hive sql常用函数
分析函数名(参数) OVER (PARTITION BY 子句 ORDER BY 子句 ROWS/RANGE 子句)。如 sum、max、min、count、avg 等聚集函数以及 lead、lag 行比较函数等;over:关键字,表示前面的函数是分析函数,不是普通的集合函数;over 关键字后面挂号内的内容;分析子句又由下面三部分组成: partition by :分组子句,表示分析函数的计算范围,不同的组互不相干;ORDER BY: 排序子句,表示分组后,组内的排序方式;原创 2023-12-22 08:19:35 · 1076 阅读 · 0 评论 -
Hive SQL的各种join总结
join时的最后一个表会通过reducer流式传输,并在其中缓冲之前的其他表,因此,将大表放置在最后有助于减少reducer阶段缓存数据所需要的内存。包含左、右两个表的全部行,不管另外一边的表中是否存在与它们匹配的行 在功能上,它等价于对这两个数据集合分别进行左外连接和右外连接,然后再使用。左表数据全部返回,右表关联上的显示返回,关联不上的显示null返回。(LEFT SEMI JOIN)会返回左边表的记录,前提是其记录对于右边的表满足ON语句中的判定条件。左指的是join关键字左边的表,简称左表。原创 2023-12-05 16:45:20 · 1496 阅读 · 0 评论 -
【hive 】时间差(天、小时、分、秒)和常用时间格式转
unix_timestamp()是hive系统时间,格式是timestamp,精确到秒。unix_timestamp(ymdhms)是把时间转换成timestamp格式,是2018-05-23 07:15:50格式。unix_timestamp() - unix_timestamp(ymdhms)是两个时间转换为timestamp之后相减,timestamp单位是秒,相减之后是两个时间之间相差的秒数。原创 2023-09-18 16:02:04 · 2823 阅读 · 0 评论