Hive
文章平均质量分 54
青山流水在深谷
大数据开发
展开
-
Hive-SQL实现连续多天任务失败的情况
hive查询连续N天字段状态为一个值的数据原创 2022-08-28 22:48:04 · 585 阅读 · 0 评论 -
Hive恢复误删数据表
Hive恢复误删数据表原创 2022-06-28 19:04:36 · 1032 阅读 · 0 评论 -
JAVA API操作hive
package com.wacai.stanlee.util;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;/** * @author yishou * @date 2021/5/17 * @description 测试类 */public class H原创 2022-01-14 15:19:20 · 444 阅读 · 0 评论 -
shell执行 Hive SQL时报语法错误
一、在进行数据修复的时候,使用脚本查询缺少数据的数据表,使用shell进行批量查询,发现报语法错误,但是hive -e "select * from test"时,正常执行Logging initialized using configuration in jar:file:/opt/apache-hive-2.1.1-bin/lib/hive-common-2.1.1.jar!/hive-log4j.propertiesNoViableAltException(-1@[]) ...原创 2021-12-31 17:01:34 · 697 阅读 · 0 评论 -
hive/mr 任务提交失败
这里写自定义目录标题问题描述问题原因、解决方案权限问题依赖问题资源问题问题描述提交hive或MR任务到yarn集群是,提示AM attempt fail,container exit -1Stack trace: ExitCodeException exitCode=1: at org.apache.hadoop.util.Shell.runCommand(Shell.java:538) at org.apache.hadoop.util.Shell.run(She原创 2021-11-05 11:40:32 · 819 阅读 · 0 评论 -
Hive 配置 UDF方式
这里写自定义目录标题hive udf编写hive部署注册函数删除注册测试错误总结hive udf编写通过继承hive UDF,UDAF,UDTF类进行覆盖方法,然后实现业务逻辑,进行打包【jar包】,部署hive部署临时部署登陆hive cli,然后添加jarhive (default)> add jar testUDF-0.0.1-SNAPSHOT.jar;永久部署复制到hive默认附加目录 cd $HIVE_HOME mkdir auxlib cp test原创 2021-10-26 15:28:06 · 1138 阅读 · 0 评论 -
Hive部署UDF方式
一、临时部署方式适用于临时验证udf功能,或自己临时使用ud【只当前session生效】部署方式: 方式一1.编写好udf并打包代码为jar包,将其放入hive的classpath【lib】目录下 2.add jar udf对应jar包的目录 3.create temporaryfunction "udf函数名称" as "udf类名"; 方式二...原创 2021-10-12 14:43:50 · 665 阅读 · 0 评论 -
hive元数据分析
前言在对hive SQL进行解析,以及跟踪hive 于yarn application的关系时,还有对hive数据仓库进行数据治理时,需要对hive元数据有个较为清楚的认识,进而更好的在解析SQL时,对数据访问进行权限控制;在资源管理时,进行资源归属;在数据生命周期管理时对其进行有效管理hive元数据库、表hive元数据是有mysql存储的,如果默认安装则是hive数据库,里面有一系列跟数据表、分区,数据倾斜,数据存储、压缩等相关的数据表version存储hive版本信息datab原创 2021-05-30 21:42:59 · 412 阅读 · 2 评论 -
Hive统计函数总结
行列转换行转列顾名思义,将每行的某个列值,转换为一行的列值可以对其进行去重统计,不去重统计原始数据去重统计concat_ws(’,’,collect_set(col_name))SQLselect id ,concat_ws(',',collect_set(value)) as rows2col from rows2cols group by id;结果不去重行转列concat_ws(’,’,collect_list(col_name))SQLselect id原创 2021-05-28 15:44:00 · 1856 阅读 · 0 评论 -
DataX 同步mysql数据到hive
安装配置datax略配置mysql数据源和目标端 hivevim conf/table2hdfs.json{ "job": { "setting": { "speed": { "channel":1 } }, "content": [ { "reader": { "name": "mysqlreader", "parameter": {原创 2021-05-27 18:38:28 · 1324 阅读 · 0 评论 -
自定义 Hive Hook
前言在关联hive SQL时,yarn application有多个与其对应,所以需要划分二者对应关系。通过开启hive seesion,解析hive session日志,来解析 hive sql 于hive job[即yarn application]的对应关系hive hookhook类型PreExecute and PostExecute: 扩展Hook接口,用于 hive SQL执行之前,执行之后的操作处理ExecuteWithHookContext :扩展Hook接口,通过HookC原创 2021-05-27 17:43:45 · 1075 阅读 · 0 评论 -
不同Hive版本配置认证授权
前言对于不同hive版本,相关的配置不同,如hive jdbc,0.11之前的Driver是 “"org.apache.hadoop.hive.jdbc.HiveDriver”,0.11之后是 “org.apache.hive.jdbc.HiveDriver”,诸如此类,同样,认证授权也不同配置hive 0.11.0空,已隐式地包含这个列表hive 0.13.0hive.security.authorization.managerhive.security.authenticator.m原创 2021-05-27 17:13:46 · 637 阅读 · 0 评论 -
Hive 配置自定义UDF
hiveCli临时配置只起作用去当前sessionhive登录,设置流程添加到hive环境:hive (tmp)> add jar /home/app/Stringlen.jar;使用自定义udf:hive (tmp)> select str_len(zzz.udecrypt_idno) from zzz;hive-site.xml配置配置hive附加jar包目录 <property> <name>hive.aux.jars.pa原创 2021-05-27 16:08:46 · 309 阅读 · 0 评论 -
Hive metastor HA配置
前言为应对生成环境hive服务可用性,需要对hive metastore服务进行backup,则其中一个metastore无法进行对外服务,backup及时转正,对发送请求进行处理图解单点故障HA 架构HA 配置依赖服务hdfs,zookeeper,hive参数配置hive-site.xml配置:<!-- 配置多个metastore服务,逗号分隔 --><property> <name>hive.metastore.uri原创 2021-05-27 15:49:56 · 374 阅读 · 0 评论 -
hive 条件判断函数
1. if 函数同case,nvl,都是处理单个列值的查询结果语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull)当条件testCondition为True,返回valueTrue;否则返回valueFalseOrNull例子:-- if 语句语法,请为 Null 的设置为 0SELECT if(var IS NULL, 0 ,var) AS var_name-- 满足一定条件的总数,Null count()原创 2021-05-27 15:21:08 · 1158 阅读 · 0 评论 -
Hive 开窗函数-cume_dist()
题目: 获取每个班级中,以数学成绩排序,取倒数20%的学生信息select studentId,math,departmentId,classId,avg(voice_score)from ( select studentId,math,departmentId,classId,cume_dist() over(partition by classId order by math) as percent_part) tmpwhere tmp.percent_part &...原创 2020-11-12 15:08:00 · 934 阅读 · 0 评论 -
Hiveserver2 thrift 添加 自定义权限认证
1.hive 配置配置hive-site.xml<property> <name>hive.server2.authentication</name> <value>CUSTOM</value> </property> <property> <name>hive.server2.custom.authenticatio原创 2020-08-04 11:32:21 · 684 阅读 · 0 评论 -
Hive 技术体系结构
# hive 安装安装指南hive 架构体系结构图工作原理SQL生成执行计划 (1).词法、语法分析 使用antlr将SQL解析成Abstract syntax tree (2).语义分析 从Metastore获取模式信息,验证SQL语句中列表,列名以及数据类型检查和隐式转换,以及hive提供的函数和用户自定义函数(udf/udaf) (3).逻辑计划生成 生...原创 2019-11-29 10:18:42 · 308 阅读 · 0 评论 -
Hive on Spark安装指南
hive安装:下载后解压(通过github 中的hive pom.xml查看对应的spark版本,进而决定是否和spark匹配)[github hive源码3.0版本] (https://github.com/apache/hive/tree/branch-3.0)版本对应如下spark hive2.3.0 3.1/3.02.0.0 2.31.6.0 2.2如果...原创 2019-11-25 12:00:24 · 272 阅读 · 0 评论