![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
秉寒-CHO
但行好事,莫问前程
展开
-
date_format(‘{TX_DATE}‘, ‘yyyyMM‘)
no原创 2022-09-02 18:07:27 · 243 阅读 · 0 评论 -
kafka flink es hive streaming
1.kafka create topic kafka-topics.sh --create --bootstrap-server 172.19.68.12:9092 --replication-factor 1 --partitions 1 --topic dev-yuqing-topic-test2.kafka producer kafka-console-producer.sh --broker-list 172.19.68.12.9092 --topic dev-yuqing-topic-t.原创 2021-09-09 11:07:57 · 365 阅读 · 0 评论 -
怎么跳过hive文件的第一行
烦人在数据上报的过程中,每个文件都是有文件头的,用hive 的建表语句跳过tblproperittes('skip.header.line.count'='1')原创 2021-09-01 11:20:43 · 406 阅读 · 1 评论 -
在做分区刷新报错时候,曾加set
set hive.msck.path.validation=ignore;MSCK REPAIR TABLE table_name;原创 2021-09-01 11:17:12 · 223 阅读 · 0 评论 -
对 Hive 数仓表进行高效小文件合并
小文件如何产生 动态分区插入数据,产生大量的小文件,从而导致 map 数量剧增 reduce 数量越多,小文件也越多( reduce 的个数和输出文件是对应的) 数据源本身就包含大量的小文件小文件带来的问题 小文件会开很多 map,一个 map 开一个 JVM 去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能 小文件会给底层文件系统带来很大压力, 如在 HDFS 中,每个小文件对象约占150 byte,如果小文件过多会占用大量内存。这样 NameNode 内...原创 2021-08-02 09:58:30 · 390 阅读 · 0 评论 -
Lpad()函数与Rpad()函数简介
内容截取和补充原创 2021-08-02 09:15:18 · 205 阅读 · 0 评论 -
hive -f 如果需要传入多个 参数
hive -f my_file.sql --hivevar p1="1" --hivevar p2="2"原创 2021-07-14 18:52:27 · 636 阅读 · 0 评论 -
shell 的一些常用命令
day =`date --date='1 days ago' +%Y%m%d`soure soure_config.shstart_time=$(date "+%Y%m%d%H%M%S")define_list=()whie read one linedodefine_list[${#define_list[*]}]=`echo ${one line} awk -F " " '{print $1}'`done < txtfor(( j = 0 ;j<${#anewlis...原创 2021-07-13 17:55:30 · 118 阅读 · 0 评论 -
数据分析两个函数
lag()over() 在主键partition范围内,按照order by 计算上一条或是下一条的值,赋值到本条信息sum () over() 在主键parition范围内,按照order by 进行累加计算原创 2021-07-12 11:30:45 · 101 阅读 · 0 评论 -
hive 日期 loop 自动生成
需求描述:传入一个开始时间,start_dt,一个结束时间,start_end,使其能够将开始时间到结束时间之间所有的时间 都遍历出来。实现效果:hive sql 实现:–根据开始时间和结束时间生成时间段内所有时间select regexp_replace(date_add(dt,row_number() over(order by dt) - 1),’-’,’’) as dtfrom (select explode(split(rpad(‘2019-07-20’,(datediff(原创 2021-07-07 15:42:28 · 805 阅读 · 0 评论 -
hive 日期 十位 转为 八位
select date_format(date(current_timestamp()),'yyyymmdd')原创 2021-07-05 17:18:11 · 1667 阅读 · 0 评论 -
hive ,tez , spark sql 小文件合并
hdfs 下小文件是最致命的影响之一Hive 命令hive.merge.mapredfiles=true;hive.merge.mapfiles=truehive.merge.rcfile.block.level=truehive.merge.size.per.task=256000000hive.merge.smallfiles.avgsize=16000000tez 命令hive.merge.tezfiles=truespark 命令 :hive.merg...原创 2021-01-15 15:01:04 · 1095 阅读 · 0 评论 -
一个头疼的错误(Hadoop hive )
Error in query : org.apache.hadoop.hive.ql.metadata.HiveException:get partition :Value for key dt is null or empty ;Solution :原创 2020-11-26 16:29:47 · 678 阅读 · 1 评论 -
大数据基础、数据仓库以及数据中台和挖掘阶段性总结
【腾讯文档】大数据基础https://docs.qq.com/slide/DQXlvZHVUTGJQR3hE原创 2020-09-18 15:52:08 · 227 阅读 · 0 评论 -
Tez 跑一段sql报错,莫名其妙
错误图片:以上内容看的头晕目眩的:具体错误内容是没有发现,因为这个问题不总是出现,在调度跑的时候就会出现,发现错误后,重跑就没有问题了 ,很是奇怪的,看错误内容,大概是有两个方向,就是内存不够然后进程被container给kill 了 ,不给个错误提示,也是醉人,不吉利。查看上面日志的cmd:yarn logs -applicationId application_1544766080243_0018 大概能猜的可能就是两个方法避免这个错误了 :1)设置下dri...原创 2020-09-18 15:45:26 · 232 阅读 · 0 评论 -
loading data to table 分区非常的多 ,造成时间非常长
在贴源层大概有两年的数据 ,存在一个分区里面 ,在往odm 写入时候 按照交易时间进行重新分区 ,造成运行时间非常长,这个有什么解决方案呢 ?loading。。。。原创 2020-06-06 17:37:27 · 733 阅读 · 2 评论 -
hive kill command 和 Hadoop Job infomation 之间的时间间隔很大
hive kill command 和 Hadoop Job infomation for stage-19 number of mappers 之间的时间间隔很大超过三分钟 ,不知道什么原因原创 2020-06-04 14:19:12 · 361 阅读 · 0 评论 -
hive decode gb18030 to utf-8
How can i hive decode gb18030 to utf-8??原创 2020-03-12 15:24:04 · 551 阅读 · 0 评论 -
有一段sql
#!/bin/bash######################################################################################################################### Creater :# Creation Time :# Description :# Mod...原创 2020-03-10 23:21:57 · 198 阅读 · 0 评论 -
哈哈 一段sql 语句
set mapred.job.priority=NORMAL;set mapred.output.compress=true;set hive.exec.compress.output=true;SET hive.default.fileformat=Orc;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.part...原创 2020-03-10 23:20:53 · 201 阅读 · 0 评论 -
hive 出现 unsupported subquery expression 错误
Failed , semanticException [error 10249] Unsupported subquery expression :Subquery expression refers to both parent and subquery expression and is not a valid join condition原创 2020-03-09 23:35:04 · 13354 阅读 · 1 评论 -
hive 解析 json json array
在大数据处理中经常遇到业务端发送json 数据到 table 里 的情况 ,这个需要数据开发工程师能够准备对json string 进行解析 ,并重新定义新表的结构 。在网络上看到很多网友提到 get_json_object ,json_tuple 的使用和案例 ,结合 替换和分组函数可以比较容易的对json 数据完成解析 。不久前我们遇到一个json 类似 格式如下 :{ hom...原创 2020-02-12 12:42:10 · 1523 阅读 · 0 评论 -
hive 2.0 下,orc 格式的hive表 change column 后 字段对应的数据丢失
大牛初步分析原因是 orc 数据文件里面也会保存一部分hive字段元数据信息 ,修改后 ,新字段跟数据文件对不上 ,造成数据不能提取原创 2019-12-06 15:06:27 · 1184 阅读 · 1 评论 -
Hive error log :FAILED: Execution Error, return code 137 from org.apache.hadoop.hive.ql.exec.mr.Mapr
From below log is not easy to find the root reason ,any body know that ,thx2018-10-22 03:45:41 INFO 2018-10-22 03:45:41,651 Stage-2(job_1540003897972_375058) map = 100%, reduce = 99%, Cumulative ...原创 2018-10-22 09:05:26 · 2446 阅读 · 4 评论 -
java jdbc 操作 hive 建表 load 数据
// 需要引入 hadoop & hive jar import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.Statement;/*** 演示了通过java jdbc 操作hive ,一般企业环境不会这么做 ,hive 目的是去jav原创 2017-02-25 19:19:07 · 9151 阅读 · 0 评论 -
Hive 以及mysql 中如何做except 数据操作
在db2 和 oracle 中 ,当我们想知道两张结构相同的table 中,数据差异时候可以采用如下sql :select * from table1 except select * from table2上面语句 求出来的就是 数据在table1 而不再table2 中的数据 ,但是令人失望的是mysql 和hive 中竟然没有提供这样子的函数 那么有什么方法原创 2017-11-07 13:17:12 · 6541 阅读 · 0 评论 -
Hive 优化 (important)
Hive ive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。原创 2016-06-13 00:17:10 · 3653 阅读 · 0 评论 -
大数据Hive 面试以及知识点
18 hive表关联查询,如何解决数据倾斜的问题? 倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免:对于ke原创 2016-10-14 22:35:29 · 34436 阅读 · 0 评论 -
Hive2 beeline 使用方法
Hive2 beeline–Beeline 要与HiveServer2配合使用,支持嵌入模式和远程模式–启动HiverServer2 ,./bin/hiveserver2–启动Beeline–wangyue@wangyue-um:~/opt/hive/hive-0.12.0-cdh5.1.0$ ./bin/beeline–beeline> !connect jdbc:hive2原创 2016-06-12 21:45:02 · 19827 阅读 · 1 评论 -
Hive性能调优 内容来自网络
Hive的一般学习者和培训者在谈性能优化的时候一般都会从语法和参数这些雕虫小技的角度谈优化,而不会革命性的优化Hive的性能,产生这种现象的原因有:1,历史原因和思维定势:大家学习SQL的时候一般都是就单机DB,这个时候你的性能优化技巧确实主要是SQL语法和参数调优;2,Hive的核心的性能问题往往是产生在超过规模数据集,例如说100亿条级别的数据集,以及每天处理上千上万个Hive作业的情原创 2017-03-07 21:34:19 · 741 阅读 · 0 评论 -
Hive Partition 操作
create external table demo (userid int ,name string ,address string)comment 'demo'partitioned by (txdate string ,txhour string)row format delimited fields terminated by '\t'lines terminated by '\n原创 2017-02-25 19:16:10 · 967 阅读 · 0 评论 -
java 链接mysql 产生500W数据模拟生成环境
java 插入数据到mysql 通过sqoop 导入到hive 中,kylin模拟见cube 时间和 数据膨胀率 kylin 数据插入到 HBaseKylinHBase 1.1.3Hive 1.2.1Hadoop 2.5.1create table infoagetime(prod_name char(10),prod_id SMALLINT,ods_date D原创 2016-09-09 20:33:22 · 1564 阅读 · 0 评论 -
HiveServer2的高可用-HA配置
HiveServer2的高可用-HA配置 :http://lxw1234.com/archives/2016/05/675.htm转载 2016-06-07 08:22:10 · 6002 阅读 · 1 评论 -
Hive 元数据 hdfs hbase 示意图.
更多详细Hive Metaserver thrift 资料 请 参考 http://www.aboutyun.com/thread-10937-1-1.html原创 2016-07-03 17:53:48 · 765 阅读 · 0 评论 -
MapReduce Hive Hbase 项目 优化
一、调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。二、调优的总体概述 从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,其中mapper阶段包括数据的读取、map处理以及写出操作(排序和合并/sort&merge),而reducer阶段包含mapper输出原创 2016-07-03 17:06:32 · 1410 阅读 · 0 评论 -
hive 查看表结构语法
show create table yourtablename原创 2018-01-29 09:18:24 · 3390 阅读 · 0 评论 -
Hive udtf 报错 java.lang.String cannot be cast to java.lang.Integer
Error :Failed with exception java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: java.lang.String cannot be cast to java.lang.Integerreason :在设置IO类型时采用...原创 2018-03-08 09:13:44 · 3379 阅读 · 1 评论 -
hive 在统计汇总时候,如何去重
create table xxxx.test_collect_list_set(first_level_directory int ,second_level_directory int ,third_level_directory int ,order_id int )ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' N...原创 2018-04-13 12:33:13 · 1528 阅读 · 0 评论 -
一种增量数据加工处理方法在大数据治理过程中的应用
技术交底书 交底书名称 一种增量数据加工处理方法在大数据治理过程中的应用 发明人(可以多个) 第一发明人身份证号码 交底书撰写人 电话&手机 Emai...原创 2019-03-21 10:12:24 · 1407 阅读 · 0 评论 -
zk kafka mariadb scala flink integration
zk kafka mariadb scala flink integrationI do not want to write this paper in the beginning , put the codes onto github.com/git.jd.com, while there some errors since moved to jdd(jd finance) this mon...原创 2019-01-17 08:50:28 · 250 阅读 · 0 评论