![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 63
尘客.
大数据开发攻城狮
展开
-
Hive安装配置笔记
hivesever2的模拟用户功能,依赖于Hadoop提供的proxy user(代理用户功能),只有Hadoop中的代理用户才能模拟其他用户的身份访问Hadoop集群。2、下载mysql-connector-j-8.1.0.jar放到HIVE_HOME/lib/目录下。对应节点先后启动metastore、hiveserver2服务。(3) mapred-site.xml配置。hadoop-3.3.6(已安装)mysql-8(已安装)(1)Hadoop端配置。5、测试建表与数据操作。(2)Hive端配置。原创 2023-10-24 20:27:43 · 620 阅读 · 0 评论 -
Centos 7 安装配置Hive 3.1.2笔记
在此进行Hive-3.1.2并以Mysql作为元数据库的基本安装配置,假设你已安装好Mysql数据库(Mysql安装配置可见:)。1 软件下载#Hive 3.1.2https://dlcdn.apache.org/hive/hive-3.1.2/#Mysql Connector, 注意下载Platform Independent版本,并解压得到Jar包https://dev.mysql.com/downloads/connector/j/2 解压Hive到对应目录tar -zxvf apa原创 2021-10-16 14:58:14 · 330 阅读 · 0 评论 -
如何配置hive支持行级数据更新操作?
NoteHive 默认是不允许数据更新操作的,毕竟它不擅长,即使在0.14版本后,做一些额外的配置便可开启Hive数据更新操作。而在海量数据场景下做update、delete之类的行级数据操作时,效率并不如意。基本环境:Hive 1.2.1hadoop 2.7.2修改HIVE_HOME/conf/hive-site.xml,添加如下配置<property> <name>hive.support.concurrency</name> <v原创 2020-07-26 17:34:21 · 2797 阅读 · 0 评论 -
如何让你的Oracle SQL/SP运行在Hive上?hplsql执行Oracle存储过程
关于安装请见:https://blog.csdn.net/qq_34901049/article/details/107582460基本环境:已有基础集群环境(三个节点): CentOS 6.8Java8hadoop2.7.2hive 1.2.1使用hplsql版本:hplsql-0.3.31前面提到hplsql看起来有助于企业从传统RDB业务架构升级到完全分布式中的Oracle SP转换执行。即实现Oracle SP on Hive的效果。hplsql作为Apache Hive下的一个原创 2020-07-25 19:28:14 · 540 阅读 · 0 评论 -
如何让你的Oracle sql/sp运行在Hive上?Apache hive hplsql 安装配置
如何让你的Oracle sql/sp运行在Hive上?背景基于海量数据处理需求背景下,公司要做数据处理平台的升级,整体架构从Oracle集群到完全分布式存储计算的Hadoop/Spark体系。其中有着大量的Oracle sql/sp(以下简称SP)需要转换到Hadoop/Spark体系下,也就是SP->Spark Sql;作为技术架构上的升级,需要保留原有业务逻辑。每个SP长达数百到数千行代码,业务逻辑复杂;人工转换成本高。hplsql作为Spache Hive下的一个子模块,借助于Antlr解原创 2020-07-25 18:11:32 · 361 阅读 · 0 评论 -
org.apache.hadoop.yarn.exceptions.YarnException: Unauthorized request to start container.
Note: System times on machines may be out of sync. Check system time and time zones.原创 2020-01-15 22:30:26 · 969 阅读 · 0 评论 -
HQL求连续活跃用户并完成相关统计(基于等差数列原理)
需求有日志如下,写出代码求得所有用户和活跃用户的总数及平均年龄。(活跃用户指连续两天都有访问记录的用户)日期 用户 年龄dt string,user_id string,age int2019-02-11,test_1,232019-02-11,test_2,192019-02-11,test_3,392019-02-11,test_1,232019-02-11,test_3,3...原创 2019-12-11 21:28:23 · 929 阅读 · 0 评论 -
hive比较运算符整理
以下描述了谓词操作符,同样可以用于JOIN…ON和HAVING语句中。 操作符 支持的数据类型 描述 A=B 基本数据类型 如果A等于B则返回TRUE,反之返回FALSE A<=>B 基本数据类型 如果A和...原创 2019-11-29 10:47:45 · 706 阅读 · 0 评论 -
渐变维度
https://www.cnblogs.com/wufengtinghai/archive/2013/05/05/3060631.htmlhttps://www.cnblogs.com/biwork/p/3363749.html转载 2019-11-26 08:14:05 · 587 阅读 · 0 评论 -
hive常用函数整理
常用日期函数1.unix_timestamp:返回当前或指定时间的时间戳2.from_unixtime:将时间戳转为日期格式3.current_date:当前日期4.current_timestamp:当前的日期加时间5.to_date:抽取日期部分6.year:获取年7.month:获取月8.day:获取日9.hour:获取时10.minute:获取分11.second:获...原创 2019-11-26 08:10:49 · 304 阅读 · 0 评论 -
hive表利用开窗函数进行数据去重
在进行业务数据分析中,遇上游客数据采集需求时往往会有一个游客在同一个数据集里存在多条数据的情况(一段时间内多次访问)。在进行数据清洗时往往需要对原始数据进行去重,group可以非常方便的完成任务。但如果需要留存所有数据段呢?这个时候也能做,干脆就是先提取到去重后id,而后进行join嘛。但这样还是觉得麻烦,多此一举。这个时候不妨采用开窗函数解决:先对id进行分区排序(row_number、clu...原创 2019-10-23 21:31:51 · 3934 阅读 · 0 评论 -
设置hive执行引擎为Tez
我们知道hive默认计算引擎为MR,而MR的特性决定了它的运算速度并不是太让人满意。在此将其运算引擎修改为Tez(当然在此需要先安装Tez),Tez基于内存的计算使得hive可以有更高的运算效率。安装配置如下:在此假设已经安装好基础hadoop、hive集群。Tez下载解压1、下载tez的依赖包:http://tez.apache.org2、解压缩apache-tez-0.9.1-bin...原创 2019-10-20 17:11:45 · 8869 阅读 · 0 评论 -
hive控制台基本操作命令(DDL、DML、连接相关)
DDL创建表1.建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment]...原创 2019-09-17 21:46:51 · 528 阅读 · 0 评论 -
HIVE内置 运算符 、函数详解
1.内置运算符1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。 ...转载 2019-10-15 11:25:11 · 237 阅读 · 0 评论