自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 解惑|HDFS无账号密码?别慌!这样防止随意操作

HDFS安全机制解析:多层防护保障数据安全 HDFS的安全机制常被误解为"无账号密码=不安全",实则采用多层防护设计。其核心在于复用操作系统用户身份进行权限管控,而非传统账号密码验证。HDFS通过以下机制确保安全:1)类Linux文件权限系统,严格管控读写执行权限;2)Kerberos强身份认证,防止用户伪造;3)网络隔离,限制集群内网访问;4)透明加密和ACL访问控制。生产环境中需配置权限检查、Kerberos认证、网络隔离等,才能有效防范未授权访问。HDFS的安全设计适用于封闭集群环

2026-04-14 20:48:17 564

原创 Yarn多队列配置详解|容量/公平调度器实操案例(附完整配置代码)

摘要: Yarn多队列配置是Hadoop集群资源调度的关键优化手段,通过创建独立资源队列(如default、hive等)实现资源隔离与优先级管控,避免单队列任务阻塞或资源耗尽。生产环境常用容量调度器(固定配额)或公平调度器(动态分配),分别适用于中小企业稳定资源分配和高动态性场景。配置核心包括定义队列资源配额(额定/最大容量)、提交任务指定队列(临时或代码级)、设置优先级等,需注意配置文件一致性、资源配额合理性及调度器切换兼容性。通过案例演示和避坑指南,本文提供Hadoop 3.1.4环境下的可复用配置代码

2026-04-10 20:43:08 441

原创 HDFS数据误删除?别慌!4种恢复方法+预防策略全解析

HDFS数据误删恢复全攻略:从回收站到快照的完整解决方案 摘要:本文系统介绍了HDFS数据误删除后的恢复方法,涵盖回收站恢复、快照恢复、副本机制恢复和编辑日志恢复四种场景。针对不同误删情况,提供了详细的操作命令和避坑指南,包括如何紧急处理、分场景恢复数据以及常见问题排查。同时强调了预防措施的重要性,建议强制开启回收站、定期创建快照、合理设置副本数等预防策略。文章指出,掌握正确的恢复方法并做好预防工作,能有效降低HDFS数据误删风险,确保数据安全。

2026-04-10 20:29:14 571

原创 Yarn三种调度器详解及默认调度器说明

摘要:本文深入解析Hadoop Yarn的三种核心调度器:FIFO调度器(简单但效率低)、容量调度器(默认配置,支持多队列资源隔离)和公平调度器(动态资源分配)。详细介绍了各调度器的工作原理、优缺点及适用场景,重点演示了如何修改默认调度器配置,包括yarn-site.xml参数设置和fair-scheduler.xml队列配置。通过对比表格清晰展示三者的区别,为企业级集群调度策略选择提供实用指导,并强调生产环境配置注意事项,帮助开发者优化Hadoop集群资源管理效率。(149字)

2026-04-09 19:22:42 469

原创 HDFS 3副本与纠删码(EC)深度对比:该怎么选?

本文对比分析了HDFS存储中的3副本机制与纠删码(EC)方案。3副本空间利用率仅33.3%,但读写性能优异,适合热数据;EC6-3方案空间利用率达66.7%,可节省50%存储空间,但写入性能较差,适合冷数据存储。生产环境建议混合使用:热数据采用3副本保证性能,冷数据使用EC降低成本,并通过自动迁移策略实现数据生命周期管理。两者各有优劣,应根据业务场景选择,热数据优先3副本,冷数据优先EC,实现性能与成本的平衡。

2026-04-09 19:03:51 533

原创 无单点故障:Hadoop HA 架构设计与最佳实践

Hadoop高可用架构搭建指南摘要 本文详细介绍了Hadoop高可用(HA)架构的搭建过程。针对HDFS和YARN组件分别阐述了高可用解决方案:通过部署主备NameNode节点配合ZooKeeper实现HDFS高可用;通过配置双ResourceManager节点实现YARN服务高可用。具体实施步骤包括环境准备、SSH免密配置、关键配置文件修改(core-site.xml、hdfs-site.xml等)、集群初始化与启动流程,以及主备切换测试验证。文章特别强调了配置过程中需注意的细节问题,如ZKFC进程管理、

2026-04-08 19:02:56 820

原创 MapReduce工作原理讲解

第二次: Maptask多次溢写产生的多个溢写文件(单个文件每部k有序),要做归并排序,maptask每个分区内,只保留1个文件(key有序) 归并排序。环形缓冲区的作用:自定义Mapper类的map方法的输出,在计算分区得到分区号之后,会将key-value-分区号写入环形缓冲区。第三次: ReduceTask-0汇总多个MapTask的(对应分区-0)结果文件,归并排序(合并排序)3. mapper.map执行完毕后,输出k-v,调用k-v的分区计算。4. 将输出k-v{分区号},存入临时缓冲区。

2026-04-08 08:58:45 461

原创 ZooKeeper

1、zk其实是一个小型的文件存储系统,可以存放少量的数据,这些数据不是什么正儿八经的数据,都是一些关于服务器的小数据。3. 全局数据一致性:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的。zxid 代表的是事务的次数 如果这个值很大,就表示这个机器上的数据比较的新。如果zxid 也相等,就看每台电脑上的myid了,如果myid谁大谁是领导。5. 数据更新的原子性:一次数据的更新要么成功,要么失败。事务【非常重要】:一通操作,要么同时成立,要么都不成立。

2026-04-07 20:42:51 356

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除