hive
hongtaq156136
这个作者很懒,什么都没留下…
展开
-
hive中rcfile orcfile和parquetfile对比
一.开始创建三种格式的表:create table rcfile (name string,age int,addr string,desc string) row format delimited fields terminated by ',' stored as rcfile;create table rcfile (name string,age int,addr string,desc...转载 2018-06-27 19:49:13 · 1392 阅读 · 0 评论 -
Hiveserver2 性能优化与GC优化
一、问题描述开发者利用jdbc连接hiveserver2(或者利用jdbc连接 spark HiveThriftServer2,由于两者都是提供jdbc连接到hive,因此,后面都统一称为利用jdbc连接hiveserver2),执行简单查询、复杂分析、超复杂分析等不同的sql任务,session并发量还很高(五六百甚至上千的并发),本质上要求大数据平台同时具备oltp的高并发与olap的高分...转载 2019-02-18 16:52:50 · 1165 阅读 · 1 评论 -
Hiveserver2 性能优化与GC优化
一、问题描述开发者利用jdbc连接hiveserver2(或者利用jdbc连接 spark HiveThriftServer2,由于两者都是提供jdbc连接到hive,因此,后面都统一称为利用jdbc连接hiveserver2),执行简单查询、复杂分析、超复杂分析等不同的sql任务,session并发量还很高(五六百甚至上千的并发),本质上要求大数据平台同时具备oltp的高并发与olap的高分...转载 2019-02-18 11:47:34 · 568 阅读 · 0 评论 -
hive 参数调优
Map Reduce数量相关数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize))1 2set mapreduce.input.fileinputformat.split.maxsize=750000000;单个reduce处理的数据量 (影响reduc...转载 2019-01-30 20:14:27 · 1118 阅读 · 0 评论 -
如何在Hadoop中处理小文件-续
Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件,以及常见的处理方法。这里Fayson再补充一篇文章进行说明。 HDFS中太多的小文件往往会带来性能下降以及扩展性受限问题,为了避免这个问题,我们一般需要控制每个文件尽可能的接近HDFS block大小比如256MB,或者是block size的几倍。 ...原创 2019-01-29 16:22:40 · 233 阅读 · 1 评论 -
parkstreaming实时写入hive后合并小文件问题
今天主要来说一下sparksql写入hive后小文件太多,影响查询性能的问题.在另外一篇博客里面也稍微提到了一下,但还是感觉要单独说一下,首先我们要知道hive里面文件的数量=executor-cores*num-executors*job数,所以如果我们batchDuration的设置的比较小的话,每天在一个分区里面就会生成很多的小文件,我们在hive里面查询的时候就会非常的影响性能,下面介绍两...转载 2019-02-03 15:27:07 · 666 阅读 · 0 评论 -
hive合并小文件的配置项
〇. 启动压缩set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true; 一. 输入合并:当有大量小文件时,启动合并,减少map数。set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputF...转载 2019-02-03 15:22:03 · 894 阅读 · 0 评论 -
Hive总结篇及Hive的优化
概述Hive学习也有一段时间了,今天来对Hive进行一个总结,谈谈自己的理解,作者还是个小白,有不对的地方请大家指出相互学习,共同进步。今天来谈一谈什么是Hive,产生背景,优势等一系列问题。什么是Hive老规矩:官网地址 Hive wiki. 先来谈谈自己的理解: 有些人可能会说Hive不就是写SQL的吗,那我们其实可以从另一个角度来理解:Hive就是那么强大啊,只要写SQL就能解...原创 2019-02-02 20:03:34 · 196 阅读 · 0 评论 -
hive与dbvisual整合
How I Connected DBVisualizer 9.2.2 on Windows to Hortonwork HiveServer2IntroductionNote! This guide is particular to DBVisualizer 9.2.2 and Hortonwork HiveServer2 (hive-0.14.0). It may work with o...原创 2019-02-01 19:47:02 · 546 阅读 · 0 评论 -
如何使用Zookeeper实现HiveServer2的HA
之前Fayson介绍了《如何使用HAProxy实现HiveServer2负载均衡》,这种方案也有一些弊端,如HAProxy本身就是单点,虽然可以通过Keepalived来实现HAProxy的高可用,但这样配置会比较麻烦并且需要多部署两个组件,增大了系统运维的复杂度。在大数据平台中Zookeeper是一个必不可少且自身具有高可用保证的组件,本文主要讲述如何使用Zookeeper实现HiveServe...原创 2019-02-01 15:25:35 · 5082 阅读 · 0 评论 -
Permission Inheritance in Hive
Permission Inheritance in Hive This document describes how attributes (permission, group, extended ACL's) of files representing Hive data are determined.HDFS BackgroundWhen a file or directory...转载 2019-01-24 15:13:40 · 382 阅读 · 0 评论 -
【数据仓库】——数据仓库命名规范
一、概述 数据模型是数据管理的分析工具和交流的有力手段;同时,还能够很好地保证数据的一致性,是实现商务智能(Business Intelligence)的重要基础。因此建立、管理一个企业级的数据模型,应该遵循标准的命名和设计规范。二、命名规范 1.表属性规范 表名 ODS层表名 前缀为ODS_应用系统名(缩写)_数据表名 。数据表名称必须以有特...转载 2018-07-12 09:53:17 · 9334 阅读 · 0 评论