Hive
文章平均质量分 56
cuichunchi
java开发 后期 转向了大数据开发 有小伙伴想转大数据可以咨询我哟
展开
-
Tez调优参数总结
hive.tez.auto.reducer.parallelism=falsehive.tez.bucket.pruning=falsehive.tez.bucket.pruning.compat=truehive.tez.container.max.java.heap.fraction=0.8hive.tez.container.size=768hive.tez.cpu.vcores=-1hive.tez.dynamic.partition.pruning=truehive.tez.dyn.原创 2022-02-17 12:54:07 · 3452 阅读 · 0 评论 -
Hive调优参数总结
MR程序 优化参数1、客户端显示以及job任务名和优先级##打印表头set hive.cli.print.header=true;set hive.cli.print.row.to.vertical=true;set hive.cli.print.row.to.vertical.num=1;##显示当前数据库set hive.cli.print.current.db=true;##job任务名set mapreduce.job.name=p_${v_date};##job优先级se.原创 2022-02-17 12:53:29 · 1563 阅读 · 0 评论 -
Hive中支持正则表达式根据需求输出指定的列
本人采用hive-1.1版本表中的数据以及列名如下:日常工作中我们需要用到两种方式:第一种:过滤调不需要的列名如下:SELECT `(id|100name)?+.+` from st;不需要id和100name的列名第二种:需要某些有相似性的列名如下:SELECT `.+name` from st;需要以name为后缀的所有列名...原创 2020-11-23 16:20:42 · 1935 阅读 · 2 评论 -
分享企业级HIVE数仓规范文档----对管理数仓很有帮助
数据仓库实施方案 文件编号:V0.1 生效日期: 编制人: 审核人: 批准人: 日期:2019.08.29 日期: 日期: 关键词 数据仓库数据模型 一、前言1.1.编写目的为了保证大数据平台整体可控性,实现脉络清晰的管理,提高开发效率和程序的可读性,降低程序编写...原创 2020-11-08 14:34:57 · 333 阅读 · 0 评论 -
CDH5.12.1集成TEZ-0.9.1
经过较长时间的痛苦编译过程中以及找了很多博客尝试,以下博客,本人尝试可用CDH集成Tez本人CDH5.12.1版本 hadoop版本是2.6.0以下是本人编译过后的tez包,高版本的CDH可用上面的链接完成编译,过程较为痛苦漫长。https://download.csdn.net/download/cuichunchi/13061602同版本的小伙伴可以拿来直接使用,安装上面的文章配置即可...原创 2020-10-27 17:54:23 · 165 阅读 · 0 评论 -
Hive on tez 运行报错集锦
执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersionCDH集群安装组件都ok,在Hue界面中使用Hive的HQL是都是ok的但是直接在liunx中,打开客户端命令:执行 hive:直接报java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion解决方案:因为CDH的hive-site.xml配置文件中没原创 2020-10-26 15:32:24 · 1951 阅读 · 0 评论 -
Hive 动态分区插入数据总结
Hive 动态分区插入数据总结1、问题描述执行以下sql导致reduce端OOM,分区数有485个按天分区,数据主要是存量数据一次性导入数仓中遇到的问题。服务器 :8核12G内存Map内存参数值:mapreduce.map.memory.mb=1024mapreduce.map.java.opts=-Xmx768m-XX:+UseConcMarkSweepGC;Reduce内存参数值:mapreduce.reduce.memory.mb=2048mapreduce.re.原创 2020-09-23 15:16:49 · 928 阅读 · 0 评论 -
Hive、Tez、Yarn资源问题总结以及优化参数
Hive、Tez、Yarn资源问题总结以及优化参数问题解决Hadoop版本:2.7.3Hive版本: 2.1.1Tez版本: 0.9.1问题描述:Hive集成Tez后,配置默认选择的执行引擎为tez,如下hive-site.xml配置截图。在服务器上直接执行hive命令,可以正常进入hive客户端,执行 set hive.execution.engine;当set hive.execution.engine=mr;以mr作为执行引擎时,执行一些聚合,统计类的..原创 2020-09-17 20:22:39 · 1332 阅读 · 0 评论 -
Hive的执行引擎Tez、spark出现的问题
Hive on Tez中,切换成mr引擎出现以下问题:hadoop版本为2.7.3tez版本为0.9.1因为tez安装目录中应该有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar,hadoop中也有hadoop-mapreduce-client-core、hadoop-mapreduce-client-common等jar,确认他们的版本是否相同,如果不同,会有这个问题;解决:将tez低版本的jar替换成2.7原创 2020-09-15 22:56:02 · 1720 阅读 · 0 评论 -
Sqoop导入hive中null字符串处理为NULL
如图所示图中的null为字符串null,当使用查询工具,转为json时候全是字符串null。图为我的导出脚本,已经添加了 导出设置null参数:--null-string,--null-non-string,但是测验中,还是不行,后来查询了官网对hive的null的描述:发现需要在表级设置’serialization.null.format’参数。alter table ${table_name} SET SERDEPROPERTIES('serialization.null.fo原创 2020-08-26 20:47:30 · 1725 阅读 · 0 评论 -
Hive集成Tez引擎跑任务出现的问题
问题1:Hive集成Tez引擎跑任务出现异常:TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1597977573448_0002_1_16_000000_3:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space看yarn 的job平台是success的,所以想到Tez的内存设置问题,因为Tez引擎是原创 2020-08-21 11:23:39 · 4243 阅读 · 0 评论 -
Hive设置MySQL元数据中文乱码编码问题以及解决
Hive设置MySQL元数据编码问题表或者字段有中文的时候需要修改hive的元数据库的设置。以mysql为例子,当mysql的字符集设置成utf8的时候使用hive会有问题(一些命令直接不能执行),详细见hive的wiki。所以当hive使用mysql作为元数据库的时候mysql的字符集要设置成latin1。1. 但是,因为MySQL通过my.cnf一般情况下设置为utf-8编码,因此需要在创建Hive元数据库时,需要将MySQL中的hive库改回latin1。alter datab原创 2020-07-30 10:16:43 · 1862 阅读 · 0 评论