莫扎特〃′o`-CSDN博客

原创 HDFS分析二

DistributedFileSystem ->FSDataInputStream->DFSClient.create(RPC通信机制)->Namenode.create。DistributedFileSystem ->FSDataInputStream->DFSClient.open(RPC通信机制)->Namenode.open。Topology.script.file.name属性值是一个脚本，这个脚本里面写的是真正意义上的网络拓扑机构。然后把我们需要的.jar包导入。然后我们把所需要的集群启动。

2024-04-13 22:42:20 398 1

原创 HDFS详细分析一

备份服务器Metalogger Server：元数据日志服务器 Metalogger Server，对 Master Server 服务器的变化日志文件进行备份，changelog_ml.*.mfs 是备份文件的类型，当 Master Server 出现故障时替换其继续工作，避免 Master Server 的单点故障导致分布式文件系统的不能正常运行。能够进行对文件的管理，功能包括文件存储，文件同步和文件访问，文件访问主要是指文件上传和文件下载，它能解决大容量存储负载均衡的一些问题。

2024-04-11 21:17:08 698

原创 MapReduce集群的安装与部署

和上面map不同的是，reduce任务不再具有本地读取的优势————一个reduce任务的输入往往来自于所有mapper的输出，因此map和reduce之间的数据流被称为 shuffle(洗牌)。MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架，其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。主节点负责调度作业的组件从属设备上的任务，监视它们并重新执行失败的任务。

2024-03-31 22:36:01 1037

原创【HDFS集群的安装与部署】

默认情况下，通过Namenodes定义的文件中重新读取数据节点的主机名 dfs.hosts ， dfs.hosts.exclude 中定义的主机 dfs.hosts 是属于集群的数据节点。总结：也就是说start-dfs.sh调用的是hadoop-daemon，而hadoop-daemon调用的是hadoop，hadoop调用的是一个个的java程序。目录（存放的是所有Hadoop下的架包以及对应的一些页的字节码）目录（存放的是一些hadoop的启动、命令脚本）目录（存放的是Hadoop的一些配置信息）

2024-03-29 23:11:16 608

原创 hadoop开源软件及其生态系统

Hive：是在hadoop的基础上建立的数据仓库，提供了数据抽取，加载和转换的工具，数据存储管理和数据查询分析能力，Hive提供了一种结构化的数据机制，定义了类似与传统关系数据库中的类SQL语言。（即：Hive（sql））Pig：运行在hadoop上，对大型数据库进行分析和评估的平台，简化了使用Hadoop对数据分析的要求，提供了一个高层次的，面向域的一个抽象源。Oozie：开源工作流引擎，用于管理和协调多个运行在hadoop平台上的作业，可以提高数据处理的柔性，改善hadoop集群的效率，减少工作量。

2024-03-28 21:32:35 755

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 HDFS分析二

原创 HDFS详细分析一

原创 MapReduce集群的安装与部署

原创 【HDFS集群的安装与部署】

原创 hadoop开源软件及其生态系统

空空如也

空空如也

原创【HDFS集群的安装与部署】