hive
文章平均质量分 76
HQL 学习,SQL学习,hive 函数的使用,项目中的遇到的问题记录
阿龙先生啊
懂点大数据运维, 会写两三行代码,自学了一些 docker, kubernetes。博客主要分享大数据、Linux、云原生相关知识。 目前职位大数据工程师,长远打算做个会敲代码的厨子。
展开
-
【Hive】Textfile 、Sequencefile和RCfile的使用与区别详解
hive在创建表时默认存储格式是textfile,或者显示自定义的stored as textfile.很多人知道 hive 常用的存储格式有三种,textfile,sequencefile,rcfile.但是却说不清楚这三种格式的干什么用的,本质有有什么区别?适合什么时候用? 因为hive是文本批处理系统,所以就存在一个往hive中导入数据的问题,首先数据的存储格式有多种,比如数据源是二进制格式, 普通文本格式等等,而hive强大之处不要求数据转换成特定的格式,而是利用hadoop本身Inpu原创 2020-02-23 17:42:55 · 921 阅读 · 2 评论 -
【Hive】使用Ambari修改 默认队列
Ambari 修改hive 默认的任务执行队列原创 2022-06-15 17:16:11 · 2883 阅读 · 0 评论 -
【Hive】小文件过多解决方案
目录一、小文件产生原因二、小文件过多产生的影响三、怎么解决小文件过多1. 使用 hive 自带的 concatenate 命令,自动合并小文件2. 调整参数减少Map数量3. 减少Reduce的数量hive 中的小文件是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式1.直接向表中插入数据2.通过load方式加载数据使用 load 方式可以导入文件或文件夹,当导入一个文件时,hive表就有一个文件,当导入文件夹时,hive表的文件数量为文件夹下所有文件的数量3.通过原创 2021-04-05 18:25:54 · 5331 阅读 · 0 评论 -
【Hive】删除添加分区、内外表转换、添加字段
# hive 删除分区alter table ods_spider_amap_poi_codes drop partition (dt=20210128);# 添加分区alter table ods_spider_meituan_comments add partition (dt=20210128);# 删除表drop table ods_spider_meituan_comments;# 清空表truncate table ods_spider_meituan_comments;.原创 2021-01-29 18:52:02 · 317 阅读 · 0 评论 -
【Hive】常用的数据类型
1、数字类2、日期时间类3、字符串类4、Misc类5、复合类。原创 2020-09-29 14:48:06 · 739 阅读 · 0 评论 -
【Hive】Join的 MR 底层原理
Hive Map Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶段。读取源表的数据,Map输出时候以 Join on 条件中的列为key,如果Join有多个关联键,则以这些关联键的组合作为key;Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列...原创 2020-04-10 16:17:33 · 4837 阅读 · 1 评论 -
【Hive】 行列互转 | 日期函数 | 聚合函数 | case when
lateral view 是UTDF的搭档(兄弟)可以把 UDTF 函数生成的表结构和原来的表进行关联操作 tabelA lateral view UDTF(xxx) 视图别名(虚拟表名) as a,b,c 此处的 UTDF可以自定义 实现 JSON 等 数据的解析。聚合函数是 一类比较特殊的函数, 其可以对多行进行一些计算,然后得到一个结果值, 更确定的说,比如:常用的 count。COLLECT_SET(col):函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段。原创 2019-12-02 22:28:18 · 1483 阅读 · 1 评论 -
【Hive】窗口函数(开窗函数部分)
我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数.目前,我用的多的就是 row_number() , sum(), 解决topN 问题,分区排序,累积计数。hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于OLAP分析(在线分析处理)。原创 2019-11-24 15:43:44 · 3040 阅读 · 1 评论 -
【Hive】数仓概念介绍和Hive入门操作
数据仓库数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基 于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表 等。数据仓库是面向主题的数据仓库通过一个个主题域将多个业务系统的数据加载到一起,为了 各个主题(如:用户、订单、商品等)进行分析而建,操作型数据库是为了支撑各种业务而 建立。数据仓库会将不同源数据库中的数据汇总到一起数据仓库中的综合数据不能从原有的数据库 系统直接得到。原创 2019-10-25 22:20:39 · 475 阅读 · 1 评论