自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

明哥的IT随笔

大家好!我是明哥,十四年IT经验,十年外企经验,六年大数据经验,目前聚焦于泛大数据生态,包括大数据,数据库,云计算和人工智能。 通过本博客记录工作中踩过的坑和对IT的感悟,欢迎大家关注交流,一起学习,共同进步!

  • 博客(110)
  • 收藏
  • 关注

原创 hive on spark 的架构和常见问题 - hive on spark 使用的是 yarn client 模式还是 yarn cluster 模式?

来自官方的经典的 spark 架构图如下:上述架构图,从进程的角度来讲,有四个角色/组件:

2024-06-20 16:36:33 532

原创 有趣的 Oracle JDBC 驱动包命名问题 - ojdbc6 和 ojdbc14 哪个新?!

最近协助一个小兄弟排查了某作业使用 sqoop 采集 oracle 数据的失败问题,问题现象,问题原因和解决方法都挺直观,但在此过程中发现了一个有趣的 Oracle JDBC 驱动包命名问题,不留意还真不好发现,故在次跟大家分享下。

2024-06-20 11:01:49 422

原创 如何获取特定 HIVE 库的元数据信息如其所有分区表和所有分区

有时我们需要获取特定 HIVE 库下所有分区表,或者所有分区表的所有分区,以便执行进一步的操作,比如通过 使用 HIVE 命令 MSCK REPAIR TABLE table_name sync partitions 修复 HIVE 元数据与 HDFS 数据在分区上的不一致性。怎么获取这些 hms 元数据呢?获取 HMS 元数据,大体有以下几种方案:相关的 hive sql 命令有:2.2 查询 hive 库对应的 hdfs 目录的结构信息,并基于这些结构信息,解析获取 hms 元数据hdfs 目录

2024-06-20 11:00:22 484

原创 聊聊 oracle varchar2 字段的gbk/utf8编码格式和字段长度问题

最近在排查某客户现场的数据同步作业报错问题时,发现了部分 ORACLE 表的 varchar2 字段,因为上游 ORACLE数据库采用 GBK 编码格式,而下游 ORACLE 数据库采用UTF8 编码格式,导致部分包含中文的字段在插入下游是,因为长度问题导致插入失败,报错信息类似“ORA-12899: value too large for column “dbName”.“tableName”.“colName” (actual: xxx, maximum: yyy)”。以下是详细信息。

2024-06-20 10:58:03 469

原创 盘点下常见 HDFS JournalNode 异常的问题原因和修复方法

HDFS namenode 有 SPOF 单点故障,因为对客户端提供元数据读写服务的是单一的一个 NameNode,Secondary NameNode 仅仅提供了 HDFS 故障时的可恢复性,而没有提供整个HDFS服务的高可用性;之所以说 Secondary NameNode 仅仅提供了 HDFS 故障时的可恢复性而不是高可用性,是因为 HDFS 发生故障时,Secondary NameNode 并不会自动晋升为 nameNode, 运维管理员需要介入进行手动处理后才能恢复 HDFS 对外服务;

2024-06-20 10:55:19 403

原创 记录一个因 MYSQL 服务端和JDBC驱动版本不一致导致 HMS 启动失败问题

某运维同学安装 CDH 后 HIVE 服务报警,查看发现 HS2 的金丝雀检查失败,进一步查看发现,HS2 无法创建默认数据库,且 HMS 启动失败。遂找到笔者进行排查。

2024-06-20 10:48:50 432

原创 聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname

聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname。

2023-09-26 16:36:03 652

原创 开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?

开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?1 Kerberos 环境中 HS2 的认证方式概述大家知道,HIVE 的认证方式可以通过参数 hive.server2.authentication 在服务端进行统一配置,而在开启了 Kerberos 安全认证的大数据环境中:我们可以配置 hive.server2.authentication=kerberos,代表配置 HS2 使用 Kerberos安全认证;我们可以配置 hive.server2.

2023-09-25 17:25:25 471

原创 如何访问TDH中Inceptor 底层的元数据库TxSQL

HIVE的元数据引擎 HMS在底层依赖一个RDBMS元数据库进行元数据的存储查询和管理,该RDBMS常用的有mysql/pg/oracle等,在实践中我们一般使用Mysql;

2023-09-25 17:18:54 621

原创 YARN 远程代码执行(RCE)安全漏洞问题分析与解决方案

某客户使用Tenable.sc扫描安全漏洞后反馈,YARN 存在Remote code execution (RCE) 安全漏洞问题,攻击者可在未经过身份验证的情况下通过该漏洞在受影响主机执行任意命令,最终控制服务器。

2023-04-26 11:14:16 1474 1

原创 聊聊 Zookeeper 的 4lw 与信息安全

最近有个客户在扫描安全漏洞时,反馈 ZOOKEEPER 存在信息泄露问题,即:ZooKeeper默认开启在2181端口,在未进行任何访问控制情况下,攻击者可通过执行envi命令获得系统大量的敏感信息,包括系统名称、Java环境;

2023-04-26 11:13:23 1424

原创 聊聊 IP packet 的 TTL 与 tcp segment 的 MSL

近几年在排查解决应用系统在客户现场遇到的复杂问题时,越来越觉得除了扎实的LINUX操作系统知识,对TCP/IP网络知识的深入理解也是至关重要的。有鉴于此,后续笔者会陆续分享一些网络基础知识和故障排查案例,有兴趣的可以深入交流下。本文介绍下 IP packet 的 TTL 与TCP segment 的 MSL,两者都跟数据包在网络上的生存时间有关。

2023-04-26 11:11:53 670

原创 分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题

最近在针对某系统进行性能优化时,发现了一个hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题,该问题具有普适性,故特地拿出来跟大家分享下

2023-03-09 16:38:29 1008

原创 分享一个 HIVE SQL 性能优化点-使用公共表表达式 CTE 替换临时表

hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。

2023-02-01 11:26:34 1128 1

原创 更改 HIVE 表字段数据类型有哪些注意事项?

更改HIVE 表字段数据类型有哪些注意事项?1. 使用 HIVE 表的常见规范2. 更改HIVE 表字段数据类型的注意事项3. 相关JIRA

2022-12-02 13:36:19 1530

原创 公共大数据集群中如何配置 YARN 的公平调度器和容量调度器

公共大数据集群中如何配置 YARN 的公平调度器和容量调度器1 YARN 资源管理框架与公平/容量调度器2 公平/容量调度器配置原则概述3 如何排查调度器资源配置引起的业务问题4 公平调度器相关重要参数5 容量调度器相关重要参数

2022-11-28 11:02:25 1674

原创 一篇文章彻底理解 HDFS 的安全模式

一篇文章彻底理解 HDFS 的安全模式

2022-11-19 17:53:17 3265

原创 如何杜绝 spark history server ui 的未授权访问?

如何杜绝 spark history server ui 的未授权访问?

2022-11-16 14:03:51 1307

原创 一篇文章彻底理解数据库的各种超时参数

前言数据库的超时参数有哪些?事务超时的含义是什么?查询超时的含义是什么?查询超时的工作机制是什么?套接字超时的含义是什么?查询超时和套接字超时有何关系?如何配置常见数据库的套接字超时?操作系统级别的套接字超时检测机制相关源码与参考连接

2022-11-11 17:33:42 2967

原创 线上 hive on spark 作业执行超时问题排查案例分享

m分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法

2022-11-08 09:20:03 2883

原创 如何更改 datax 以支持hive 的 DECIMAL 数据类型?

1. JAVA 数据类型 - float/double 与 BigDecimal2. hive 数据类型 - Double,DECIMAL,Numeric3.如何更改 datax 以支持 hive 的 DECIMAL 数据类型?

2022-11-01 11:59:28 1405

原创 线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题

2022-10-31 10:18:15 361

原创 CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui

在CDH/CDP等大数据平台中,当开启kerberos安全后,如何访问HDFS/YARN/HIVESERVER2 等服务的webui呢?

2022-09-29 09:28:24 2052

原创 大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?

CDP中如何做到不同业务用户的 HIVE 作业提交到不同的 YARN 队列,以达到资源隔离的目的?

2022-09-22 16:02:17 1918

原创 数据平台发展史-从数据仓库数据湖到数据湖仓

回顾数据平台发展历史,梳理数据平台变迁脉络,更全面准确地理解数据仓库数据湖和数据湖仓!

2022-09-20 18:09:50 2507

原创 开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致作业失败

大数据问题排查系列 - 开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致 spark/hive 作业失败前言大家好,我是明哥!最近在若干个不同客户现场,都遇到了大数据集群中开启 Kerberos 后,spark/hive 作业提交到YARN 后,因 YARN Container 启动失败作业无法执行的情况,在此总结下背后的知识点,跟大家分享下,希望大家有所收获。1 问题1问题现象某客户现场,大数据集群中开启了 kerberos 安全认证,提交 hive on

2022-09-16 14:12:32 1818

原创 大数据生态安全框架的实现原理与最佳实践(下篇)

大数据生态安全框架的实现原理与最佳实践(下篇)前言 数字化转型大背景下,数据作为企业重要的战略资产,其安全的重要性不言而喻。我们会通过系列文章,来看下大数据生态中安全框架的实现原理与最佳实践,系列文章一共两篇,包含以下章节:大数据生态安全框架概述HDFS 认证详解HDFS 授权详解HIVE 认证详解HIVE 授权详解金融行业大数据安全最佳实践本片文章是下篇,包含上述后三个章节,希望大家喜欢。1. HIVE 认证详解 HIVE 的认证方式,通过参数 hive.server2.authenti

2022-09-14 15:30:17 695

原创 Gartner 网络研讨会 “九问数字化转型” 会后感

Gartner 网络研讨会 “九问数字化转型” 会后感

2022-06-21 16:07:08 382

原创 深入剖析 HIVE 的锁和事务机制

深入剖析 HIVE 的锁和事务机制

2022-06-21 16:05:10 1276

原创 如何使用 DATAX 以 UPSERT 语义更新下游 ORACLE 数据库中的数据?

如何使用 DATAX 以 UPSERT 语义更新下游 ORACLE 数据库中的数据?

2022-06-21 16:04:15 3016 1

原创 一起架构-某实时分析项目云原生 serverless 架构的设计思路和poc代码实现

某个实时分析项目在 AWS 上的架构设计和 POC 开发,该项目使用了 serverless 的云原生架构,在此跟大家分享下架构设计和 poc 代码的细节

2022-06-13 10:42:17 401

原创 大数据生态安全框架的实现原理与最佳实践(上篇)

下数据生态中安全框架的实现原理与最佳实践,包含以下章节:- 大数据生态安全框架概述- HDFS 认证详解- HDFS 授权详解- HIVE 认证详解- HIVE 授权详解- 金融行业大数据安全最佳实践

2022-06-09 16:44:12 1026

原创 为什么不能使用 datax 直接读写 hive acid 事务表?

HIVE 对 ACID 事务表(或表分区)底层文件的目录结构,文件名,和文件格式都有一套严格的规范。

2022-06-07 15:52:32 351

原创 HIVE3 深度剖析 (下篇)

整个系列分为上下两篇文章,涵盖以下章节:1. 从 HIVE 架构的演进看 HIVE 的发展趋势2. 盘点下 HIVE3.X 和 HIVE2.X 的那些重大差异点3. HIVE3.X 的 ORC 事务表详解4. HIVE3.X 的 LEGACY 传统模式详解5. 周边生态如 SPARK/DATAX 如何对接HIVE 3x6. 大数据应用对接 HIVE3.x 的几点建议本片文章是下篇,包含上述后三个章节,希望大家喜欢。

2022-05-16 19:46:31 979

原创 HIVE3 深度剖析 (上篇)

1. 从 HIVE 架构的演进看 HIVE 的发展趋势2. 盘点下 HIVE3.X 和 HIVE2.X 的那些重大差异点3. HIVE3.X 的 ORC 事务表详解4. HIVE3.X 的 LEGACY 传统模式详解5. 周边生态如 SPARK/DATAX 如何对接HIVE 3x6. 大数据应用对接 HIVE3.x 的几点建议

2022-05-11 13:49:17 1575

原创 聊聊 kerberos 的 kinit 命令和 ccache 机制

1. 前言大家好,最近遇到了个 kerberos 相关问题,“客户端节点上执行 kinit -R 命令报错:KDC can’t fulfill requested option while renewing credentials”, 在次跟大家分享下问题的解决方式,和背后的相关知识点,主要涉及到 kerberos 的 kinit 命令和 ccache 机制。2. 问题现象与问题日志问题现象: 客户端执行命令 kinit -R 报错: “KDC can’t fulfill requested opt

2022-03-11 16:34:31 4427

原创 HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失

紧急扩散!HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失!1. HDFS-16420 BUG 概述HDFS3.X 的 EC 纠删码功能,近期被发现有个 BUG:该 BUG 会导致,以纠删码机制存放的目录和文件,在某些特殊情况下,会被系统误删,从而造成数据丢失。目前 HADOOP 社区已经通过 HDFS-16420 在版本 3.4.0/3.2.3/ 3.3.2 中修复了该 BUG,Cloudera 针对该 BUG 也给出了详细的分析和修复建议:

2022-03-09 13:33:03 1844

原创 JAVA 那些事 - 聊聊那些易混淆的概念:JVM/JRE/JDK,openJDK/oracleJDK,JAVA SE/JAVA EE/Jakarta EE

回顾下JAVA那些易混淆的概念,包括 JVM/JRE/JDK,openJDK/oracleJDK,以及 JAVA SE/JAVA EE/Jakarta EE。

2022-02-15 17:27:47 877

原创 盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役

盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役!1. Apache Ambari 正式退役正所谓几家欢乐几家愁,2022 年初,又一款顶级 Apache 大数据项目,正式宣告退役:Apache Ambari 于 2022-01 悄然宣布,项目不再维护,正式进入退役阶段!image笔者听闻该消息,恰逢虎年春节之际,虽然对 Ambari 的退役早有预期,但由于早年与 Ambari 颇有渊源,还是不免唏嘘一场!所以谨以一篇博文,纪念下 A

2022-02-07 16:20:47 1363

原创 聊聊 JDBC 的 executeBatch || 对比下不同数据库对 JDBC batch 的实现细节

聊聊 JDBC 的 executeBatch || 对比下不同数据库对 JDBC batch 的实现细节 || 剖析下 Mysql 的 参数 rewriteBatchedStatements || 剖析下 pg 的参数 reWriteBatchedInserts大家好,我是明哥!上篇博文,“对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements” 发表后,有小伙伴问到不同数据库对 JDBC 批量更新的实现细节,

2022-01-30 14:05:03 3085

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除