![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 80
banana`
这个作者很懒,什么都没留下…
展开
-
Hiveserver2服务宕机及解决
描述: 公司内部使用Hue作为数分团队对大数据的分析产出工具,随着数分业务增加和使用人员复杂,不规范SQL,不规范的使用,导致Hue连接Hive的Hiveserver2服务意外宕机,查看服务日志,并无明显报错,只能在CDH管理界面看出是OOM导致的意外退出,想着通过加大内存以及加上万能重启方式,然而并不能解决,服务运行一段时间后,仍然因OOM挂机,因日志没有详细错误信息,只能看到服务在退出时dump出了很大的堆快照文件(-XX:+HeapDumpOnOutOfMemoryError),分析快照文件相对较为.原创 2022-05-05 14:19:08 · 3539 阅读 · 0 评论 -
Hive调优相关总结
写在前我们都知道Hive默认的执行引擎是MR,在没有对Hive执行引擎改造之前(如HDP的TEZ,Hive on Spark项目),我们对Hive的调优依然只能围绕Hive本身支持的如存储格式,压缩,参数,SQL语句等方面的优化做出考虑。存储与压缩关于Hive存储格式和压缩方式的选择和使用,这里就不再做介绍,请参考以前博客存储格式和压缩方式Hive 调优参数因为Hive的默认执行引擎为MR,所以基于Hive的参数调优,主要还是MR的参数调优以及Hive客户端的一些设置1.开启Hi原创 2020-08-11 11:39:56 · 67168 阅读 · 0 评论 -
存储格式在Hive的应用
介绍存储按存储方式的不同可分为两类,一是行式存储,二是列式存储,对相同的原文件使用不同的存储格式可以减少不等的存储空间,并且在读取相同的原文件时,拉取的数据量会有较大差别,这样会减少磁盘的IO,从而缩短任务消耗的时间。存储一般会配合压缩一起使用,这样可以进一步减少存储空间和磁盘IO。行式存储: 优点,一行记录的所有字段可以存储在同一个block中,这样在查询所有字段信息时可以直接获取。 ...原创 2018-03-13 22:36:48 · 357 阅读 · 0 评论 -
Hive 数据定义语言(DDL)
DDL(Data Definition Language)HiveQL 语句可以通过hive官网进行全面细致学习,这里概述hive的DDL语言Hive数据存储结构 1. Database:Hive中包含了多个数据库,默认的数据库为default,对应于HDFS目录是/user/hive/warehouse,可以通过hive.metastore.warehouse.dir参数进...原创 2018-01-27 22:39:02 · 1211 阅读 · 0 评论 -
Hive数据操作语言(DML)
1. 加载数据(load)LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)]加载数据到表中时,Hive不做任何转换。加载操作只是把数据拷贝或移动操作,即移动数据文件到Hive表相应的位置。 加载的目标可以是一个表...原创 2018-01-28 21:15:13 · 581 阅读 · 0 评论 -
HiveQL基础语法(聚合,分组函数)
1. 聚合函数通俗说,聚合函数是将多行数据导出一条结果 常用的聚合函数有:max,min,count,sum,avg对emp表查询员工的最大、最小、平均工资及所有工资的和 1. hive> select * from emp; 2. OK 3. 7369 SMITH CLERK 7902 1980/12/17 800.0 ...原创 2018-01-28 22:01:34 · 1869 阅读 · 0 评论 -
Hive实现wordcount统计
1. 创建一个数据库 1. hive> create database wordcount; 2. OK 3. Time taken: 0.389 seconds 4. hive> show databases; 5. OK 6. default 7. wordcount...原创 2018-01-28 22:18:00 · 1465 阅读 · 2 评论 -
Hive字符集问题
创建表失败hive创建表失败,报错 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connections, we don’t support retries at t...原创 2018-01-28 22:42:56 · 2588 阅读 · 0 评论 -
hive导入导出(import/export)
1. 概括Hive 0.8.0 之后引入了EXPORT and IMPORT 命令。EXPORT命令将表或分区的数据连同元数据一起导出到指定的输出位置(HDFS上)。然后可以将此输出位置移至不同的Hadoop或Hive实例,并使用IMPORT命令进行导入操作。导出分区表时,原始数据可能位于不同的HDFS位置。还支持导出/导入分区子集的功能。导出的元数据存储在目标目录中,数据文件存储在...原创 2018-01-29 22:14:50 · 1542 阅读 · 0 评论 -
HiveServer2 JDBC客户端连接Hive数据库
1. 介绍:两者都允许远程客户端使用多种编程语言,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,两者都允许远程客户端使用多种编程语言如java,python等向hive提交请求,取回结果(从hive0.15起就不再支持hiveserver了),但是在这里我们还是要说一下hiveserverHiveServer或者HiveSe...原创 2018-02-01 21:24:41 · 1002 阅读 · 0 评论 -
hive的Reduce join与Map join
说明hive 中的join可分为俩类,一种是common join(也叫Reduce join或shuffle join),另一种是 map join,后者是对hive join的一个优化,利用本地的task对较小的表hash生产一个hashtable文件,然后直接和map出来另一个表进行匹配,最终完成join\set hive.auto.convert.join = false 在0.7...原创 2018-02-01 22:42:24 · 2834 阅读 · 0 评论