翻斗花园龙爷爷-CSDN博客

原创退出和开启以及查看HDFS安全模式的指令？执行时的注意事项？HDFS安全模式的作用？

是 HDFS 在启动时的一种保护机制，确保在所有 DataNode 完成数据块副本报告并且集群数据完整时，才允许执行写操作。

2025-10-11 15:49:21 794

原创关于节点间数据均衡，磁盘间数据均衡具体作用和意义，以及当下的实际操作步骤

节点间数据均衡是指在分布式存储系统中，确保数据在集群中各个节点上的分布相对均匀。其目的是避免某些节点存储过多数据，而另一些节点则存储较少数据，从而防止某个节点成为系统瓶颈，导致性能下降或资源浪费。

2025-10-11 15:29:14 593

原创 hadoop中元数据的作用及意义解释

是文件系统的重要组成部分，主要由 NameNode 管理，包含文件的路径、权限、数据块位置信息、副本信息等内容。元数据是 Hadoop 集群高效、可靠运行的关键，帮助 Hadoop 实现快速的数据定位、容错恢复、一致性维护以及资源管理。

2025-10-11 14:41:11 474

原创 handoop完全分布式文件配置中core-site.xml，hdfs-site.xml，mapred-site.xml，yarn-site.xml，workers，hadoop-env.sh作用解释

配置 Hadoop 的核心设置，如文件系统 URI 和临时目录。: 配置 HDFS 的文件块大小、副本数、存储路径等。: 配置 MapReduce 的执行框架、内存等参数。: 配置 YARN 资源管理器和 NodeManager 设置。workers: 列出集群中的所有工作节点。: 配置 Hadoop 环境变量，如 Java 路径、Hadoop 安装目录等。这些配置文件和脚本共同确保了 Hadoop 集群的高效运行和资源管理。

2025-10-11 11:36:17 598

原创关于在hadoop后台进程启动成功，而在9870端口页面datanode却只显示其中的一个节点的问题一步步排查解决过程：

当前核心问题是DataNode 进程不稳定（被 SIGTERM 终止）和注册通信失败。优先解决内存溢出或网络 / 配置错误，再通过实时日志定位剩余问题，即可让hadoop03的 DataNode 正常注册到 NameNode。其实多数问题不是内存不够，益处的问题，而是网络问题。当前问题的根源是网卡活跃状态与hosts配置不匹配，通过 “获取活跃网卡 IP → 修正hosts解析 → 验证连通性 → 重启 DataNode” 的步骤，可彻底解决hadoop03。

2025-09-26 17:21:40 1157 1

原创 FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapReduce J

namenode内存空间不够，JVM剩余内存空间不够新job运行所致。

2024-12-22 19:47:25 247

原创 zookeeper一些报错记录及解决

解决方法：chmod -R 777 /tmp/zookeeper/zookeeper-3.4.5/tmp/（这是tmp文件路径，需要根据自己的路径更改）输入kServer.sh start启动zookeeper时由于是在hadoop用户下，权限不够。进入root用户给hadoop用户赋权即可回到hadoop用户下进行启动。

2024-12-20 09:26:30 293

原创 FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me

关于这个启动hive，输入show databases;等sql查询语言会出现的错误，有一个方法可以解决，可用，我已成功解决。

2024-12-11 09:17:12 1368 1

原创时间复杂度（学习笔记）

若存在正实数 c 和实数 n0 ，使得对于所有的 n>n0 ，均有 T(n)≤c⋅f(n) ，则可认为 f(n) 给出了 T(n) 的一个渐近上界，记为 T(n)=O(f(n))。以冒泡排序为例，外层循环执行 n−1 次，内层循环执行 n−1、n−2、…>2n ，所以阶乘阶比指数阶增长得更快，在 n 较大时也是不可接受的。常数阶<对数阶<线性阶<线性对数阶（n logn)<平方阶指数<阶阶乘阶。T(n)=2n(n+1)+(5n+1)+2 完整统计。T(n)=n2+n 偷懒统计。

2024-11-07 12:09:46 1839

原创 spark中RDD的累加器的详细解释

二、具体解释*：1. `val sc: SparkContext = new SparkContext(conf)`： - 这里声明一个名为`sc`的变量，类型为`SparkContext`，并使用前面创建的`conf`配置对象作为参数来构造一个 SparkContext。最后打印 `counter2` 的值，但结果为 0。然后使用分布式 RDD（`dataRDD`，假设包含元素 `[1, 2, 3]`）的 `foreach` 方法遍历每个元素，并将元素值累加到累加器 `counter3` 中。

2024-10-18 14:36:22 1682

原创 c语言：二级指针

因此，通过使用二级指针，我们可以通过间接引用来修改一级指针指向的地址。使用二级指针的主要场景是在函数中传递指针的指针，以便可以在函数内部修改指针的值，而不仅仅传递指针的副本。未调用函数前与函数内*ptr的地址都是num=5的地址。而调用后*ptr的地址就是num=10的地址。而函数内*pptr地址等于传过去的*ptr的地址，pptr则是二级指针**pptr的地址。也就是说二级指针存储了*ptr的地址，这样在函数内部就能达到改变一级指针的地址。声明：这是我在学习中做出的总结，如若有不对的地方，还请大佬纠正。

2023-10-18 23:38:54 387 1

哥们菜鸟一个的博客

原创项目经验之hadoop参数调优