![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 91
明哥的IT随笔
十四年IT老兵,十年外企经验(IBM+HP)。
在大数据上,历任过应用研发,集群运维,架构咨询等多种技术岗位,现任某公司大数据架构师。
热爱技术,喜欢学习,擅长各种线上问题的排查,解决和优化。
目前聚焦于泛大数据生态圈,包括大数据,数据库,云计算和人工智能。
展开
-
分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题
最近在针对某系统进行性能优化时,发现了一个hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题,该问题具有普适性,故特地拿出来跟大家分享下原创 2023-03-09 16:38:29 · 1017 阅读 · 0 评论 -
分享一个 HIVE SQL 性能优化点-使用公共表表达式 CTE 替换临时表
hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。原创 2023-02-01 11:26:34 · 1134 阅读 · 1 评论 -
更改 HIVE 表字段数据类型有哪些注意事项?
更改HIVE 表字段数据类型有哪些注意事项?1. 使用 HIVE 表的常见规范2. 更改HIVE 表字段数据类型的注意事项3. 相关JIRA原创 2022-12-02 13:36:19 · 1535 阅读 · 0 评论 -
线上 hive on spark 作业执行超时问题排查案例分享
m分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法原创 2022-11-08 09:20:03 · 2903 阅读 · 0 评论 -
如何更改 datax 以支持hive 的 DECIMAL 数据类型?
1. JAVA 数据类型 - float/double 与 BigDecimal2. hive 数据类型 - Double,DECIMAL,Numeric3.如何更改 datax 以支持 hive 的 DECIMAL 数据类型?原创 2022-11-01 11:59:28 · 1410 阅读 · 0 评论 -
线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题
线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题原创 2022-10-31 10:18:15 · 365 阅读 · 0 评论 -
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
在CDH/CDP等大数据平台中,当开启kerberos安全后,如何访问HDFS/YARN/HIVESERVER2 等服务的webui呢?原创 2022-09-29 09:28:24 · 2066 阅读 · 0 评论 -
大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?
CDP中如何做到不同业务用户的 HIVE 作业提交到不同的 YARN 队列,以达到资源隔离的目的?原创 2022-09-22 16:02:17 · 1926 阅读 · 0 评论 -
深入剖析 HIVE 的锁和事务机制
深入剖析 HIVE 的锁和事务机制原创 2022-06-21 16:05:10 · 1278 阅读 · 0 评论 -
为什么不能使用 datax 直接读写 hive acid 事务表?
HIVE 对 ACID 事务表(或表分区)底层文件的目录结构,文件名,和文件格式都有一套严格的规范。原创 2022-06-07 15:52:32 · 357 阅读 · 0 评论 -
HIVE3 深度剖析 (上篇)
1. 从 HIVE 架构的演进看 HIVE 的发展趋势2. 盘点下 HIVE3.X 和 HIVE2.X 的那些重大差异点3. HIVE3.X 的 ORC 事务表详解4. HIVE3.X 的 LEGACY 传统模式详解5. 周边生态如 SPARK/DATAX 如何对接HIVE 3x6. 大数据应用对接 HIVE3.x 的几点建议原创 2022-05-11 13:49:17 · 1579 阅读 · 0 评论 -
大数据问题排查系列-大数据集群开启 kerberos 认证后 HIVE 作业执行失败
大数据问题排查系列-大数据集群开启 kerberos 认证后 HIVE 作业执行失败1 前言大家好,我是明哥!本文是大数据问题排查系列 的 kerberos问题排查子序列博文之一,讲述大数据集群开启 kerberos 安全认证后,hive作业执行失败的根本原因,解决方法与背后的原理和机制。以下是正文。2 问题现象大数据集群开启 kerberos 安全认证后,HIVE ON SPARK 作业执行失败。通过客户端 beeline 提交作业,报错 spark client 创建失败,其报错信息是:F原创 2021-09-05 12:12:45 · 928 阅读 · 0 评论 -
大数据问题排查系列-开启 kerberos 后无法访问 HIVESERVER2 等服务的 WEBUI
大数据问题排查系列-开启 kerberos 后无法访问 HIVESERVER2 等服务的 WEBUI1 前言大家好,我是明哥!在博文“从技术视角看大数据行业的发展趋势”中,我们提到大数据的一个发展趋势是日益重视数据安全。在数据安全上,有四个方面的问题需要解决,即 3A + 1E:3A 是指 authentication, authorization 和 audit 即认证,授权和审计,分别解决了用户身份校验,用户权限校验,事后审计监督的问题;1E 指的是 encryption 即加密,包括对静态原创 2021-09-03 16:05:02 · 1077 阅读 · 0 评论 -
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复前言大家好,我是明哥!本片博文是“大数据问题排查系列”之一,讲述某HIVE SQL 作业因为 HIVE 中的元数据与 HDFS中实际的数据不一致引起的一个问题的排查和修复。以下是正文。问题现象客户端报错如下:Unable to move source xxx to destination xxx问题分析客户端的报错信息,并没有完全展现问题背后的全貌。我们进入 hiveserver2 所在节点查看hi原创 2021-09-02 07:59:56 · 1876 阅读 · 0 评论 -
大数据线上问题排查系列 - 同样的HQL,在CDH与TDH平台执行效率差异巨大的根本原因与业务侧应对方案
大数据线上问题排查系列 - 同样的HQL,在CDH与TDH平台执行效率差异巨大的根本原因与业务侧应对方案前言大家好,我是明哥!公众号已经运维有一段时间了,也写了不少博文,其中很多是从自己解决真实线上问题的实战经历出发,写的经验总结和IT感悟。但由于前期摸索过程中,文风不统一且排版不太好,各篇博文之间也欠缺呼应,不太方便大家分类阅读学习,所以后续博文会尽量归类到对应的系列下。本片博文是“大数据线上问题排查系列”大类别之一,以下是正文。问题概述某日测试团队同学跟我反馈了一个问题,即某大数据应用系统中原创 2021-08-15 11:35:15 · 524 阅读 · 0 评论 -
线上问题排查系列-org.apache.thrift.transport.TTransportException:java.net.SocketTimeoutExceptio
大数据作业异常的排查,往往是个比较棘手的问题。这一方便是因为分布式作业的执行往往需要跨多个网络节点进行通信比较复杂,另一方面也是因为涉及底层框架多(spark, hive, flink, ...原创 2020-12-08 10:01:30 · 12215 阅读 · 3 评论 -
浅析 hive udaf 的正确编写方式- 论姿势的重要性-系列四-如何直接访问metastore service(附源码)
前言大家好,我是明哥。HIVE 作为大数据生态的数仓解决方案,因为历史的原因在很多行业很多公司都有着广泛的应用。对于比较复杂的业务逻辑,HIVE SQL 往往比较难以表达,此时大家在开发中...原创 2021-08-03 18:30:00 · 262 阅读 · 0 评论