大数据平台
文章平均质量分 92
明哥的IT随笔
十四年IT老兵,十年外企经验(IBM+HP)。
在大数据上,历任过应用研发,集群运维,架构咨询等多种技术岗位,现任某公司大数据架构师。
热爱技术,喜欢学习,擅长各种线上问题的排查,解决和优化。
目前聚焦于泛大数据生态圈,包括大数据,数据库,云计算和人工智能。
展开
-
如何更改 datax 以支持hive 的 DECIMAL 数据类型?
1. JAVA 数据类型 - float/double 与 BigDecimal2. hive 数据类型 - Double,DECIMAL,Numeric3.如何更改 datax 以支持 hive 的 DECIMAL 数据类型?原创 2022-11-01 11:59:28 · 1489 阅读 · 0 评论 -
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
在CDH/CDP等大数据平台中,当开启kerberos安全后,如何访问HDFS/YARN/HIVESERVER2 等服务的webui呢?原创 2022-09-29 09:28:24 · 2222 阅读 · 0 评论 -
大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?
CDP中如何做到不同业务用户的 HIVE 作业提交到不同的 YARN 队列,以达到资源隔离的目的?原创 2022-09-22 16:02:17 · 2003 阅读 · 0 评论 -
数据平台发展史-从数据仓库数据湖到数据湖仓
回顾数据平台发展历史,梳理数据平台变迁脉络,更全面准确地理解数据仓库数据湖和数据湖仓!原创 2022-09-20 18:09:50 · 2641 阅读 · 0 评论 -
深入剖析 HIVE 的锁和事务机制
深入剖析 HIVE 的锁和事务机制原创 2022-06-21 16:05:10 · 1330 阅读 · 0 评论 -
如何使用 DATAX 以 UPSERT 语义更新下游 ORACLE 数据库中的数据?
如何使用 DATAX 以 UPSERT 语义更新下游 ORACLE 数据库中的数据?原创 2022-06-21 16:04:15 · 3232 阅读 · 1 评论 -
大数据生态安全框架的实现原理与最佳实践(上篇)
下数据生态中安全框架的实现原理与最佳实践,包含以下章节:- 大数据生态安全框架概述- HDFS 认证详解- HDFS 授权详解- HIVE 认证详解- HIVE 授权详解- 金融行业大数据安全最佳实践原创 2022-06-09 16:44:12 · 1078 阅读 · 0 评论 -
HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失
紧急扩散!HDFS3.X 系列的 EC 纠删码策略有个安全隐患 HDFS-16420,极端情况下会造成数据丢失!1. HDFS-16420 BUG 概述HDFS3.X 的 EC 纠删码功能,近期被发现有个 BUG:该 BUG 会导致,以纠删码机制存放的目录和文件,在某些特殊情况下,会被系统误删,从而造成数据丢失。目前 HADOOP 社区已经通过 HDFS-16420 在版本 3.4.0/3.2.3/ 3.3.2 中修复了该 BUG,Cloudera 针对该 BUG 也给出了详细的分析和修复建议:原创 2022-03-09 13:33:03 · 1884 阅读 · 0 评论 -
盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役
盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役!1. Apache Ambari 正式退役正所谓几家欢乐几家愁,2022 年初,又一款顶级 Apache 大数据项目,正式宣告退役:Apache Ambari 于 2022-01 悄然宣布,项目不再维护,正式进入退役阶段!image笔者听闻该消息,恰逢虎年春节之际,虽然对 Ambari 的退役早有预期,但由于早年与 Ambari 颇有渊源,还是不免唏嘘一场!所以谨以一篇博文,纪念下 A原创 2022-02-07 16:20:47 · 1424 阅读 · 0 评论 -
大数据问题排查系列-大数据集群开启 kerberos 认证后 HIVE 作业执行失败
大数据问题排查系列-大数据集群开启 kerberos 认证后 HIVE 作业执行失败1 前言大家好,我是明哥!本文是大数据问题排查系列 的 kerberos问题排查子序列博文之一,讲述大数据集群开启 kerberos 安全认证后,hive作业执行失败的根本原因,解决方法与背后的原理和机制。以下是正文。2 问题现象大数据集群开启 kerberos 安全认证后,HIVE ON SPARK 作业执行失败。通过客户端 beeline 提交作业,报错 spark client 创建失败,其报错信息是:F原创 2021-09-05 12:12:45 · 983 阅读 · 0 评论 -
大数据问题排查系列-开启 kerberos 后无法访问 HIVESERVER2 等服务的 WEBUI
大数据问题排查系列-开启 kerberos 后无法访问 HIVESERVER2 等服务的 WEBUI1 前言大家好,我是明哥!在博文“从技术视角看大数据行业的发展趋势”中,我们提到大数据的一个发展趋势是日益重视数据安全。在数据安全上,有四个方面的问题需要解决,即 3A + 1E:3A 是指 authentication, authorization 和 audit 即认证,授权和审计,分别解决了用户身份校验,用户权限校验,事后审计监督的问题;1E 指的是 encryption 即加密,包括对静态原创 2021-09-03 16:05:02 · 1116 阅读 · 0 评论 -
一文看懂 Cloudera 对 CDH/HDP/CDP 的产品支持策略
一文看懂 Cloudera 对 CDH/HDP/CDP 的产品支持策略前言大家好,我是明哥。熟悉大数据业界的小伙伴们都知道,Cloudera 在跟HortonWorks 合并后,便推出了新一代大数据平台 CDP,并正在逐步停止原有的大数据平台 CDH 和 HDP。但具体到何时会彻底停止对 CDH 和 HDP 的维护,CDH/HDP 停止维护后现有用户该如何应对,以及 CDP 跟 CDH/HDP 的异同,或多或少都有些模式。笔者希望通过本文,能彻底回答清楚小伙伴们的上述问题。以下是正文。CDH/H原创 2021-08-26 00:06:14 · 4939 阅读 · 1 评论 -
TDH大数据平台的卸载与重装
TDH大数据平台的卸载与重装前言大家好,我是明哥!前段时间写过一篇博文关于TDH 集群的许可证管理机制及TDH集群的卸载与安装的博文。该片博文的核心意思如下:星环的tdh大数据平台执行了严格的许可证管理机制,当集群的许可证到期后,集群及集群中的关键服务如hdfs/inceptor等将不能再进行重启,无法正常对外提供服务。所以集群管理员需要提前规划时间,及时向星环官方申请许可证续期。不过对于依托最终客户名义,多次续期的开发或测试集群,星环官方对续期申请可能会冷处理不做任何响应。此时,我们可原创 2021-08-22 21:14:54 · 787 阅读 · 0 评论