问题排查
文章平均质量分 92
明哥的IT随笔
十四年IT老兵,十年外企经验(IBM+HP)。
在大数据上,历任过应用研发,集群运维,架构咨询等多种技术岗位,现任某公司大数据架构师。
热爱技术,喜欢学习,擅长各种线上问题的排查,解决和优化。
目前聚焦于泛大数据生态圈,包括大数据,数据库,云计算和人工智能。
展开
-
线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题
线上数据问题排查案例分享-因为 HMS 和底层 orc 文件中某字段的数据精度不一致造成的数据丢失问题原创 2022-10-31 10:18:15 · 385 阅读 · 0 评论 -
大数据问题排查系列-大数据集群开启 kerberos 认证后 HIVE 作业执行失败
大数据问题排查系列-大数据集群开启 kerberos 认证后 HIVE 作业执行失败1 前言大家好,我是明哥!本文是大数据问题排查系列 的 kerberos问题排查子序列博文之一,讲述大数据集群开启 kerberos 安全认证后,hive作业执行失败的根本原因,解决方法与背后的原理和机制。以下是正文。2 问题现象大数据集群开启 kerberos 安全认证后,HIVE ON SPARK 作业执行失败。通过客户端 beeline 提交作业,报错 spark client 创建失败,其报错信息是:F原创 2021-09-05 12:12:45 · 952 阅读 · 0 评论 -
大数据问题排查系列-开启 kerberos 后无法访问 HIVESERVER2 等服务的 WEBUI
大数据问题排查系列-开启 kerberos 后无法访问 HIVESERVER2 等服务的 WEBUI1 前言大家好,我是明哥!在博文“从技术视角看大数据行业的发展趋势”中,我们提到大数据的一个发展趋势是日益重视数据安全。在数据安全上,有四个方面的问题需要解决,即 3A + 1E:3A 是指 authentication, authorization 和 audit 即认证,授权和审计,分别解决了用户身份校验,用户权限校验,事后审计监督的问题;1E 指的是 encryption 即加密,包括对静态原创 2021-09-03 16:05:02 · 1092 阅读 · 0 评论 -
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复前言大家好,我是明哥!本片博文是“大数据问题排查系列”之一,讲述某HIVE SQL 作业因为 HIVE 中的元数据与 HDFS中实际的数据不一致引起的一个问题的排查和修复。以下是正文。问题现象客户端报错如下:Unable to move source xxx to destination xxx问题分析客户端的报错信息,并没有完全展现问题背后的全貌。我们进入 hiveserver2 所在节点查看hi原创 2021-09-02 07:59:56 · 1926 阅读 · 0 评论 -
大数据问题排查系列 - HDFS FileSystem API 的正确打开方式,你 GET 了吗?
大数据问题排查系列 - HDFS FileSystem API 的正确打开方式,你 GET 了吗?前言大家好,我是明哥!本片博文是“大数据问题排查系列”之一,我们首先会聊聊一个问题的现象原因和解决方法,然后给出 HDFS FileSystem API 常见的两种使用方式,最后来看下 HDFS 源码中是如何根据用户的配置文件创建对应的 FileSystem 对象实例的。以下是正文。从一个报错聊起问题现象:某 JAVA 作业需要读取 HDFS 文件系统中的文件,作业提交后报错如下:java.i原创 2021-08-24 23:42:40 · 470 阅读 · 1 评论 -
大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案
大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案前言大家好,我是明哥!作为当今离线批处理模式的扛把子,SPARK 在绝大多数公司的数据处理平台中都是不可或缺的。而在底层使用的具体资源管理器上,SPARK 支持四种模式:standaloneyarnmesoskubernetes四种模式的简单对比如下图:以上四种模式中,mesos 在业界使用的最少,其次是 standalone 模式,再次是 yarn 模式。不过随着大数据与云计算日益融合的趋势,原创 2021-08-18 22:53:19 · 416 阅读 · 0 评论 -
大数据线上问题排查系列 - 同样的HQL,在CDH与TDH平台执行效率差异巨大的根本原因与业务侧应对方案
大数据线上问题排查系列 - 同样的HQL,在CDH与TDH平台执行效率差异巨大的根本原因与业务侧应对方案前言大家好,我是明哥!公众号已经运维有一段时间了,也写了不少博文,其中很多是从自己解决真实线上问题的实战经历出发,写的经验总结和IT感悟。但由于前期摸索过程中,文风不统一且排版不太好,各篇博文之间也欠缺呼应,不太方便大家分类阅读学习,所以后续博文会尽量归类到对应的系列下。本片博文是“大数据线上问题排查系列”大类别之一,以下是正文。问题概述某日测试团队同学跟我反馈了一个问题,即某大数据应用系统中原创 2021-08-15 11:35:15 · 538 阅读 · 0 评论 -
线上问题排查系列-org.apache.thrift.transport.TTransportException:java.net.SocketTimeoutExceptio
大数据作业异常的排查,往往是个比较棘手的问题。这一方便是因为分布式作业的执行往往需要跨多个网络节点进行通信比较复杂,另一方面也是因为涉及底层框架多(spark, hive, flink, ...原创 2020-12-08 10:01:30 · 12426 阅读 · 3 评论 -
线上问题排查系列 - unable to create new native thread
最近项目忙着上线,有段时间没有更新公众号了。借这次费了老劲才解决的一个线上的问题,跟大家分享下排错经验,也聊聊IT感悟。IT感悟明哥一直觉得,IT领域各个技术之间都是相通的,是融合在一起来...原创 2021-01-22 23:02:06 · 920 阅读 · 0 评论