——hive
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制
脸ル粉嘟嘟
BigDate.我命由我!
展开
-
如何设置CDH的资源池
【代码】如何设置CDH的资源池。原创 2023-06-17 00:56:32 · 390 阅读 · 0 评论 -
离线计算调优手册
目前离线计算主要分为两块: 和 ,该手册将围绕这两部分展开说明。随着技术不断迭代升级,结合不同业务、不同场景,手册的适用性可能发生变化,因此下面介绍的优化手段可作为参考,并不是一成不变的。Hive的简单定义(来自Hive官网):简单来说,hive本身是一种数据仓库,通过其提供的sql和访问接口,使我们能够很方便的访问读写大规模数据集,无需关注底层数据是如何分布存储的。目前hive 提供了三种计算引擎:,使用者可根据hadoop集群安装环境(CDH、阿里云EMR等等)选择使用不同的计算引擎。具体可通过参数原创 2023-06-13 23:23:58 · 543 阅读 · 0 评论 -
Hive归档操作命令
直接使用大数据平台的离线计算创建作业即可;原创 2023-06-13 22:53:16 · 248 阅读 · 0 评论 -
Hive之HPLSQL安装手册
解压下载的hplsql-0.3.31.tar.gz压缩包,(注意。文件,后面只需要配置这俩个文件),上传到集群。(根据自己库表来查询测试)测试成功说明连接成功。原创 2023-06-07 10:11:05 · 606 阅读 · 0 评论 -
合并文件解决HiveServer2内存溢出方案
使用HiveServer2查询数据时,会将元数据都加载到内存中,如果一个表格的分区很大,每个分区中又有很多的小文件,就会导致将元数据加载到内存中时使用的内存比较大。因此,Cloudera公司推荐使用的分区数最好不要超过1000个分区;同时分区中的也不要存储过多的为小文件,要定期对数据进行治理以合并小文件。原创 2023-06-06 16:23:02 · 1193 阅读 · 0 评论 -
基于Oracle系统表将Oracle表生成出相应的HIVE内部表&外部表
【代码】基于Oracle系统表将Oracle表生成出相应的HIVE内部表&外部表。原创 2023-06-06 15:53:33 · 419 阅读 · 0 评论 -
使用Java代码实现Excel2Hive
//1.将excel转成csv格式的文件excelToCsv(excelPath,csvPath);//2.读取csv的数据到hive表中csvToHive(csvPath,pi_schema,pi_table,hc);//3.清除留痕 -默认清除留痕原创 2023-06-06 15:41:56 · 249 阅读 · 0 评论 -
将固定分隔符的TXT文件导入Hive表
【代码】将固定分隔符的TXT文件导入Hive表。原创 2023-06-06 15:37:08 · 1132 阅读 · 2 评论 -
CentOS6安装hive-2.1.1
hive 这里简单说明一下,好对大家配置hive有点帮助。hive是建立在hadoop上的,当然,你如果只搭建hive也没用什么错。说简单一点,hadoop中的mapreduce调用如果面向DBA的时候,那么问题也就显现了,因为不是每个DBA都能明白mapreduce的工作原理,如果为了管理数据而需要学习一门新的技术,从现实生活中来说,公司又需要花钱请更有技术的人来了。hive ...原创 2018-11-02 20:36:35 · 518 阅读 · 2 评论 -
apache-hive-1.2.1-bin 安装
技能标签下载apache hive 安装包 进行apache-hive-1.2.1-bin.tar.gz安装 配置mysql存储元数据 配置HDFS存储 /user/hive/warehouse 该Hive版本1.2.1默认集成在(Spark1.6 到 Spark2.4)下载下载安装包apache-hive-1.2.1-bin.tar.gz: https://archive.ap...原创 2019-01-14 19:52:38 · 463 阅读 · 0 评论 -
hive视图使用案例
0.吧啦hive视图作用视图是基于数据库的基本表进行创建的它是一种伪表,数据库中储存视图的定义,不存数据项,数据项仍然存在基本表中它可作为一个抽象层,将数据发布给下游用户视图的作用:(1)可定义多表的连接、某些列或某些行可见,简化查询(2)视图只能查询,不能进行数据的插入和修改,可以提高数据的安全性1.创建视图1.1语法CREATE VIEW [ IF NOT EXISTS ] ...原创 2019-12-20 09:52:26 · 2324 阅读 · 0 评论 -
hive表关联条件不支持不等值连接
hive表关联条件不支持不等值连接不等式:(>=,>,<=,<,<>,between..and)场景:oracle里面的SQL转化成hiveSQL中,关联时ON里面的条件如果含有不等值,那么在hive中不能直接使用,如果将不等式放在where条件中,造成下面描述问题: 直接将不等值连接放在where条件中会过滤掉主表的部分数据,解决方案:需要先通过i......原创 2019-11-11 18:14:37 · 8936 阅读 · 6 评论 -
使用hive脚本一键动态分区、分区又分桶以及脚本步骤详细详解(亲测成功)
一、动态分区以及从linux本地文件映射到hive表中。partitioned.sql脚本中的创造数据:mkdir /mytempcd mytempvi stu_score.txt1,zhangshan,50,12,lisi,67,13,tom,49,24,jery,48,2hive脚本内容如下------partitioned.sqlset mapre...原创 2018-10-19 22:21:33 · 1035 阅读 · 0 评论 -
hive2.*安装部署常见错误总结(连载)
异常一、java.lang.RuntimeExceptionException in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient...原创 2018-10-16 13:55:37 · 442 阅读 · 0 评论