Hive
文章平均质量分 69
Relian哈哈
分享知识和分享苹果是不一样的,苹果会越分越少,而知识并不会因为分享而减少,知识的分享更能激荡出不一样的火花
展开
-
Hive中生成自增序列的常用方法
在日常业务开发过程中,通常遇到需要hive数据表中生成一列唯一ID,当然连续递增的更好。最近在结算业务中,需要在hive表中生成一列连续且唯一的账单ID,于是就了解生成唯一ID的方法原创 2023-10-07 01:47:53 · 4206 阅读 · 0 评论 -
hive中排序函数row_number、rank、dense_rank的区别
row_number 排序字段值相同时,序号不同,下一个序号顺序自增rank 排序字段值相同时,序号相同,下一个序号跳跃自增dense_rank排序字段值相同时,序号相同,下一个序号顺序自增原创 2022-05-20 22:47:57 · 6051 阅读 · 1 评论 -
如何处理Spark数据倾斜
一、什么是数据倾斜在分布式集群计算中,数据计算时候数据在各个节点分布不均衡,某一个或几个节点集中80%数据,而其它节点集中20%甚至更少数据,出现了数据计算负载不均衡的现象。数据倾斜在MR编程模型中是十分常见的,用最通俗的话来讲,数据倾斜就是大量的相同key被分配到一个partition里,而其它partition被分配了少量的数据。这时候我们就认为是数据倾斜了二、数据倾斜的影响造成了“少数人累死,多数人闲死”的情况,这种情况是我们不能接受的,这也违背了分布式计算的初衷。集群中一个或几个节点原创 2022-04-04 00:22:45 · 7974 阅读 · 0 评论 -
hive表textfile格式与orc格式互转
ALTER TABLE dev.dev_yhzz_pop_bill SET FILEFORMAT INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'; ...原创 2021-11-23 00:15:00 · 5498 阅读 · 1 评论 -
解决hive表新增的字段查询为空null问题
一、问题点有一个hive外部表,分区字段是tp和month,新增了几个字段fee_org_id,applied_date_time,pop_coop_mode_type_cd,fee_company后,insert overwrite重跑分区数据,SELECT * FROM app.app_yhzz_pop_bill_indicator_result WHERE tp = 'yt' AND month = '2021-04'用hive引擎查询如下,新增的几个字段是null而用prest原创 2021-05-14 14:30:05 · 3775 阅读 · 1 评论 -
hive与presto解析json中的字段值
hive解析get_json_object语法:get_json_object(string json_string, string path)→ varcharpresto解析json_extract_scalar语法:json_extract_scalar(string json, string json_path) → varchar语法:json_extract(string json, string json_path) → json...原创 2020-09-12 19:10:45 · 24366 阅读 · 0 评论 -
hive&presto日期与字符串转换
由于presto小数据量比hive查询快的多,日常查询作业会经常在hive和presto中转换,但二者函数或部分语法不一样,尤其是日期,因此简单梳理了hive与presto最近一段时间日期时间转换。原创 2021-01-10 02:49:03 · 31188 阅读 · 1 评论 -
hive与presto解析json数组并拆分为多行
1。regexp_extract语法: regexp_extract(stringsubject, stringpattern, intindex)返回值:string说明: 将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。第一参数: 要处理的字段第二参数: 需要匹配的正则表达式第三个参数:0是显示与之匹配的整个字符串 1 是显示第一个括号里面的 2 是显示第二个括号里面的字段...SELECT CO.........原创 2020-09-10 22:48:26 · 16273 阅读 · 5 评论 -
Hive中数据导入与导出
1数据导入1.1向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数据到hive表,可选项(3)inpath:表示加载数据的路径(4..原创 2020-07-05 19:22:32 · 303 阅读 · 0 评论 -
Hive DDL常见操作
一、数据库操作1.1、创建数据库1)创建一个数据库,在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断,如下:hive (default)> create database db_hive;FAILED: Execution Error, return code 1 from org.a原创 2020-06-27 22:35:52 · 410 阅读 · 0 评论 -
Hive基本概念及运行原理
一、hive的简介Hive最早是由Facebook开源用于解决海量结构化日志的数据统计,后贡献给开源社区,成为Apache顶级开源项目。它是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能,其本质是将HQL转化成MapReduce程序。其仓库主要表现在以下三个方面:1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上二、hive优缺点优点操作接口采用类SQL语法,提供快速开原创 2020-06-27 01:51:01 · 2227 阅读 · 0 评论 -
hive的三种模式及配置
hive依赖于hadoop集群和mysql数据库,hadoop集群安装不在详述,mysql见3(3)1、配置分布 NameNode DataNode Zookeeper DFSZKFC JournalNode hive(单用户) hive(多用户) mysql node01 1 1 ...原创 2018-06-24 20:02:39 · 4368 阅读 · 0 评论