![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 92
明哥的IT随笔
十四年IT老兵,十年外企经验(IBM+HP)。
在大数据上,历任过应用研发,集群运维,架构咨询等多种技术岗位,现任某公司大数据架构师。
热爱技术,喜欢学习,擅长各种线上问题的排查,解决和优化。
目前聚焦于泛大数据生态圈,包括大数据,数据库,云计算和人工智能。
展开
-
hive on spark 的架构和常见问题 - hive on spark 使用的是 yarn client 模式还是 yarn cluster 模式?
来自官方的经典的 spark 架构图如下:上述架构图,从进程的角度来讲,有四个角色/组件:原创 2024-06-20 16:36:33 · 544 阅读 · 0 评论 -
聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname
聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname。原创 2023-09-26 16:36:03 · 655 阅读 · 0 评论 -
开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?
开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?1 Kerberos 环境中 HS2 的认证方式概述大家知道,HIVE 的认证方式可以通过参数 hive.server2.authentication 在服务端进行统一配置,而在开启了 Kerberos 安全认证的大数据环境中:我们可以配置 hive.server2.authentication=kerberos,代表配置 HS2 使用 Kerberos安全认证;我们可以配置 hive.server2.原创 2023-09-25 17:25:25 · 474 阅读 · 0 评论 -
如何访问TDH中Inceptor 底层的元数据库TxSQL
HIVE的元数据引擎 HMS在底层依赖一个RDBMS元数据库进行元数据的存储查询和管理,该RDBMS常用的有mysql/pg/oracle等,在实践中我们一般使用Mysql;原创 2023-09-25 17:18:54 · 627 阅读 · 0 评论 -
YARN 远程代码执行(RCE)安全漏洞问题分析与解决方案
某客户使用Tenable.sc扫描安全漏洞后反馈,YARN 存在Remote code execution (RCE) 安全漏洞问题,攻击者可在未经过身份验证的情况下通过该漏洞在受影响主机执行任意命令,最终控制服务器。原创 2023-04-26 11:14:16 · 1487 阅读 · 1 评论 -
聊聊 Zookeeper 的 4lw 与信息安全
最近有个客户在扫描安全漏洞时,反馈 ZOOKEEPER 存在信息泄露问题,即:ZooKeeper默认开启在2181端口,在未进行任何访问控制情况下,攻击者可通过执行envi命令获得系统大量的敏感信息,包括系统名称、Java环境;原创 2023-04-26 11:13:23 · 1435 阅读 · 0 评论 -
分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题
最近在针对某系统进行性能优化时,发现了一个hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题,该问题具有普适性,故特地拿出来跟大家分享下原创 2023-03-09 16:38:29 · 1017 阅读 · 0 评论 -
分享一个 HIVE SQL 性能优化点-使用公共表表达式 CTE 替换临时表
hive 作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写 SQL 时使用公共表表达式 CTE 替换临时表,经测试优化效果还不错,尤其是涉及到当量IO的场景。原创 2023-02-01 11:26:34 · 1134 阅读 · 1 评论 -
更改 HIVE 表字段数据类型有哪些注意事项?
更改HIVE 表字段数据类型有哪些注意事项?1. 使用 HIVE 表的常见规范2. 更改HIVE 表字段数据类型的注意事项3. 相关JIRA原创 2022-12-02 13:36:19 · 1535 阅读 · 0 评论 -
公共大数据集群中如何配置 YARN 的公平调度器和容量调度器
公共大数据集群中如何配置 YARN 的公平调度器和容量调度器1 YARN 资源管理框架与公平/容量调度器2 公平/容量调度器配置原则概述3 如何排查调度器资源配置引起的业务问题4 公平调度器相关重要参数5 容量调度器相关重要参数原创 2022-11-28 11:02:25 · 1676 阅读 · 0 评论 -
一篇文章彻底理解 HDFS 的安全模式
一篇文章彻底理解 HDFS 的安全模式原创 2022-11-19 17:53:17 · 3278 阅读 · 0 评论 -
如何杜绝 spark history server ui 的未授权访问?
如何杜绝 spark history server ui 的未授权访问?原创 2022-11-16 14:03:51 · 1333 阅读 · 0 评论 -
一篇文章彻底理解数据库的各种超时参数
前言数据库的超时参数有哪些?事务超时的含义是什么?查询超时的含义是什么?查询超时的工作机制是什么?套接字超时的含义是什么?查询超时和套接字超时有何关系?如何配置常见数据库的套接字超时?操作系统级别的套接字超时检测机制相关源码与参考连接原创 2022-11-11 17:33:42 · 2980 阅读 · 0 评论 -
线上 hive on spark 作业执行超时问题排查案例分享
m分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法原创 2022-11-08 09:20:03 · 2903 阅读 · 0 评论