![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 57
下山化缘的DJ
大数据开发工程师,主攻实时数据计算,平常就写写自己感觉有用的东西
展开
-
yarn队列设置
yarn队列设置原创 2022-01-06 18:23:22 · 682 阅读 · 1 评论 -
数据仓库模型
https://zhuanlan.zhihu.com/p/137454121原创 2021-12-24 17:37:48 · 393 阅读 · 0 评论 -
hive行转列,列转行函数使用说明
hive,concat_ws(),collect_set(),collect_list(), LATERAL VIEW explode原创 2021-12-16 18:53:19 · 1513 阅读 · 0 评论 -
hive时间函数的使用
时间函数的变形select day -- 时间 ,date_add(day,1 - dayofweek(day)) as week_first_day -- 本周第一天_周日 ,date原创 2021-12-15 18:13:22 · 4578 阅读 · 0 评论 -
Sqoop基本使用
sqoop,它是一款开源的工具,主要用于实现关系型数据库与hadoop中hdfs之间的数据传递,其中用的最多的就是import,export了。sqoop的安装配置也是非常简单的,这里就不说明了,本文主要针对如何使用sqoop实现oracle到hive(hdfs)的数据传递进行试验。对于比较全的参数使用,可以到sqoop的官方文档http://sqoop.apache.org/docs/ 查看,以下是这次会用到的一些参数讲解:-m N :开启N个map来导入数据–query : 从查询结果导入数据,原创 2021-12-08 19:00:57 · 1407 阅读 · 0 评论 -
HDFS中小文件产生的原因以及解决
小文件产生的原因: 1、实时处理:比如我们使用 Spark Streaming 从外部数据源接收数据,然后经过 ETL 处理之后存储 到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。 2、hive中对表执行insert操作,每次插入都在表目录下形成一个小文件,这个小文件就是MR任务reduce端的输出文件。 解决:insert overwrite table t_new as select * from t_old; 3、hive中执行简原创 2021-06-14 19:12:09 · 2393 阅读 · 2 评论 -
hive正则表达清洗
regexp_replace(trim(e.cat_id),"[@^…?-`’"",*./ \,❌✘⏰。〞ヽ :\]”、\[ +]",’’)splid的用法:语法:split(str string, regex string) -- 使用 regex 分割字符串 str返回值是一个数组。连接原创 2021-03-04 17:43:54 · 220 阅读 · 1 评论 -
hive部分优化
hive部分优化转载 2020-12-01 14:01:42 · 56 阅读 · 0 评论 -
正则表达式 全集
链接 正则表达式全集https://tool.oschina.net/uploads/apidocs/jquery/regexp.html原创 2020-11-30 17:57:04 · 158 阅读 · 0 评论 -
hive中 <> 和 != 的区别
hive中 <> 和 != 的区别以前在建设数据仓库,处理数据的过程中,经常反复使用hive的HQL语句,尽管HQL和SQL语言有很多相同之处,但也并不是说HQL就能通用SQL的语法。在使用过程中要尤为注意。事情经过是这样的,我在把业务系统数据同步到数仓(数据存储在Hive)中时,在数据汇总层(DWS),对数据进行汇总处理时,发现有数据丢失的问题,经过排查,发现是在使用 <> 引发的坑。Hive 中 != 或 <> 致命陷阱业务场景:把业务数据抽到ODS层(原始数据原创 2020-10-12 16:02:41 · 7774 阅读 · 0 评论 -
left join 、right join中 on后面加条件where和 and的区别
left join 中 on后面加条件where和 and的区别on条件是在生成临时表时使用的条件,它不管and中的条件是否为真,都会返回左边表中的所有记录。 所以说 and后 加 左表的条件对 左表无影响。and后的条件只对右表产生影响where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左表的记录)了,条件不为真的就全部过滤掉。即对 join后的数据再进行过滤,过滤出只符合where后的条件。如图所示图片来源于网络...原创 2020-09-29 15:42:41 · 1303 阅读 · 0 评论 -
窗口函数的定义、分类及用法
开窗函数的使用定义:开窗函数也叫分析函数,有两类:一类是聚合开窗函 数,一类是排序开窗函数。格式:函数名(列) OVER(partition by 列名 order by列名)使用:一般和 聚合函数使用,组成开窗函数,常用聚合函数:count()求个数sum() 求和avg()求平均数bai min()最小值max()最大值这些函数常与group by子句连用。除了 COUNT 以外,聚合函数忽略空值。2 .OVER 关键字:OVER 关键字表示把函原创 2020-07-16 11:51:57 · 2314 阅读 · 0 评论