21 文斌-CSDN博客

原创 2021-11-04

首先我们先了解一下统计学，机械学习，数据挖掘，深度学习。 1：统计学是通过搜索、整理、分析、描述数据等手段，以达到推断所测对象的本质，甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识，其应用范围几乎覆盖了社会科学和自然科学的各个领域。 2:机械学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有内容进行知识结构划分来有效提高学习效率。更是计算机人工智能的核心，让计算机有智慧的..

2021-11-04 23:30:57 413 1

原创 YARN的工作机制

YARN 概述 YARN 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.用户使用客户端向 RM 提交一个任务job，同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置，如果没有特别指定，则使用默认设置。 2.RM 在收到任务提交的请求后，先根据资源和队列是否满足要求选择一个 NM，通知它启动一个特殊的 container，称为 ApplicationM...

2021-11-02 23:23:03 184

原创 HDFS的block和切片的区别

在 hdfs 架构中，存在 blocks 的概念。通常来说，hdfs中的一个block 是 64MB 。1.简单来说，split只是一个概念上的切片，他单单存在与虚拟之中，而block是物理上的分割，他将你储存的数据进行了分割。2.为了MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输split的大小在默认的情况下和HDFS的block切块大小一致,3.数据切片：数据切片是逻辑概念，只是程序在输入数据的时候对数据进行标记,不会实际切分磁盘数据

2021-11-02 21:57:56 120

原创节点距离计算

在同一节点上，它们之间的距离当然是0，2*0=0在同一机架上的不同节点，它们的共同祖先就是这个机架，而这两个节点到机架的距离都是1，所以这两个节点的距离为1+1=2在同一集群的不同机架上的节点，它们的共同祖先是集群，而这两个节点要到达集群，首先要到这个机架(距离1)，然后到达集群(距离2)，所以两个节点的距离为2+2=4在同一数据中心的不同集群上的节点，它们的共同祖先是数据中心，以此类推，一个节点到数据中心的距离是3，两个节点的距离就是3+3=6。***总的来说节点距离=两个节点到达最近的共同祖先的

2021-11-02 20:52:36 148

原创 HDFS写数据流

HDFS写数据流HDFS（Hadoop Distributed File System）是GFS的开源实现。1.与namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在2.namenode返回是否可以上传3.client请求第一个 block该传输到哪些datanode服务器上4. namenode返回3个datanode服务器1235. clinet请求三台datanode一个，选择1datanode(设datanode1为最近的服务器），1收到请求后会继续调

2021-10-28 22:00:04 817

原创 HDFS读数据流图

HDFS（Hadoop Distributed File System）是GFS的开源实现。客户端会先通知名称节点，名称节点会创建一个新的文件记录（确认没有相同文件和客户权限）。然后会将文件分成一块一块数据块默认大小会是128MB（当然你可以去改，不顾不推荐。因为块太小：寻址时间占比过高。块太大：Map任务数太少，作业执行速度变慢。它是最大的一个单位。)如今一般都是64MB，写数据时注意是会写冗余数据，冗余数据的个数默认是三个。冗余数据全部写完，数据节点向客户端发出确认，客户端再向名称节点结束消息，将..

2021-10-26 21:54:07 114

WENBIN6的博客

原创 2021-11-04

原创 YARN的工作机制

原创 HDFS的block和切片的区别

原创节点距离计算

原创 HDFS写数据流

原创 HDFS读数据流图

空空如也

空空如也

原创 2021-11-04

原创 YARN的工作机制

原创 HDFS的block和切片的区别

原创 节点距离计算

原创 HDFS写数据流

原创 HDFS读数据流图

空空如也

空空如也

原创节点距离计算