2401_84572682-CSDN博客

原创实训第三天

通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要局部调整某个步骤即可。数据仓库层（DW）：也称为细节层，DW层的数据应该是一致的、准确的、干净的数据，即对源系统数据进行了清洗（去除了杂质）后的数据。执行延迟高，不适合做数据的实时处理，但适合做海量数据的离线处理。

2024-04-24 21:07:11 1694 2

原创了解hdfs

NameNode：NameNode是HDFS的主节点，负责管理文件系统的命名空间，包括文件和目录的元数据信息。总的来说，HDFS的架构是基于主从结构的，其中NameNode负责管理文件系统的元数据，DataNode负责存储实际的文件数据，而Secondary NameNode用于辅助NameNode进行元数据的检查点。文件块（block）：HDFS将大文件分割成固定大小的文件块（通常是128MB或256MB），并将文件块存储在不同的DataNode节点上。掌握hdfs的shell命令。

2024-04-23 20:22:37 583

原创认识hadoop

总的来说，如果有一个很大的任务，单机很难完成，所以要用到分布式，就是有一台 master机子（服务器），有很多 slave机子（服务器），然后 masters给 slaves分配任务，把一个大任务分成很多小任务，给每个 slave去完成，然后 master机子收集每个 slave的结果，处理得出最终结果， hadoop就是一个完成了这个事情的框架。Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

2024-04-22 22:24:04 438

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 实训第三天

原创 了解hdfs

原创 认识hadoop

空空如也

空空如也

原创实训第三天

原创了解hdfs

原创认识hadoop