无洺-CSDN博客

原创统计学，机器学习，数据挖掘，深度学习的区别

机器学习是一种实现人工智能的方法，深度学习是一种实现机器学习的技术，深度学习是机器学习的一种。深度学习与机器学习的主要区别是在于性能。统计学与机器学习是在研究模型与算法，统计学基于数学，而机器学习基于机器自主学习，是数学、统计学、计算机科学的交汇融合。机器学习的科学成分更重一些，而数据挖掘的技术成分更重一些。...

2021-11-04 22:34:13 852

jiedian节点距离计算：两个节点到达最近的共同祖先的距离总和。集群可认为机房。DiStance（d1/r1/n0, d1/r1/n0) =0(同一节点上的进程）Distance (d1/r1/n1, d1/r1/n2) =2 (同一机架上的不同节点）Distance (d1/r2/n0，d1/r3/n2) =4 (同一数据中心不同机架上的节点）Distance(d1/r2/n1,d2/r4/n1) =6 (不同数据中心的节点）注意：要一步一步来计算，直至到最近共同祖先，每一.

2021-10-30 12:23:58 354

原创 YARN的工作机制

在 Hadoop1.0 中，MapReduce 的 JobTracker 负责了太多的工作，包括资源调度，管理众多的 TaskTracker 等工作。这自然是不合理的，于是 Hadoop 在 1.0 到 2.0 的升级过程中，便将 JobTracker 的资源调度工作独立了出来，而这个独立出来的资源管理框架，就是 Yarn 。几个重要组成介绍：1，Container：容器。容器由NodeManager启动和管理，并被它所监控。 ...

2021-10-29 21:37:52 694

原创 HDFS的block与切片（split）的区别

一：block是物理上的数据分割，split是逻辑上的数据分割。二：用户可自定义split size。三：一个split不会包含零星点几或者几点几个block，一定是包含大于等于一个个整数个block。四：一个split不会包含两个file的block，不会跨越file边界。五：split和block是一对多的关系。六：maptasks的个数最终决定于splits的长度。举例：File 1：Block1，Block2，Block3，Block4，Block5File...

2021-10-29 19:36:54 390

原创 HDFS读数据流程图

1，客户端给namenode发起文件下载请求。2，namenode返回文件存储所在的datanode block块信息。3，客户端根据拿到的block信息与距离最近的切片所在的datanode 建立通道信息，获取文件切片。4，datanode将该节点上的切片信息传输给客户端。5，如果没有获取到所有的切片信息，再与距离最近其他切片副本所在的datanode建立通信通道，获取该节点的切片。如此重复，直到获取到所有的切片信息。6.客户端拿到所有的切片后，将切片组装称完整的文件。...

2021-10-29 18:55:12 324

原创 HDFS写数据流程

HDFS写数据流程图

2021-10-26 21:38:20 776

m0_62617758的博客

原创统计学，机器学习，数据挖掘，深度学习的区别

原创节点距离计算

原创 YARN的工作机制

原创 HDFS的block与切片（split）的区别

原创 HDFS读数据流程图

原创 HDFS写数据流程

空空如也

空空如也

原创 统计学，机器学习，数据挖掘，深度学习的区别

原创 节点距离计算

原创 YARN的工作机制

原创 HDFS的block与切片（split）的区别

原创 HDFS读数据流程图

原创 HDFS写数据流程

空空如也

空空如也

原创统计学，机器学习，数据挖掘，深度学习的区别

原创节点距离计算