![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据导论
vyvtan
这个作者很懒,什么都没留下…
展开
-
统计学,机器学习,深度学习,数据挖掘的联系
1。统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。2。机器学习通过从数据里提取规则或模式来把数据转换成信息。3.深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。4.数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。....原创 2021-11-04 23:19:36 · 394 阅读 · 0 评论 -
节点距离计算
在同一节点上,它们之间的距离是0,2*0=0。在同一机架上的不同节点,它们的共同祖先就是这个机架,而这两个节点到机架的距离都是1,所以这两个节点的距离为1+1=2。在同一集群的不同机架上的节点,它们的共同祖先是集群,而这两个节点要到达集群,首先要到这个机架,然后到达集群,所以两个节点的距离为2+2=4。在同一数据中心的不同集群上的节点,它们的共同祖先是数据中心,以此类推,一个节点到数据中心的距离是3,两个节点的距离就是3+3=6。...原创 2021-11-02 23:30:01 · 110 阅读 · 0 评论 -
HDFS的block和切片(split)的区别
1. block是物理上的数据分割,而split是逻辑上的分割。2.Block 非常适合用于数据备份,进而提供数据容错能力和可用性,split不具备。3. 一个split不会包含零点几或者几点几个Block,一定是包含大于等于1个整数个Block。4. split和Block的关系是一对多的关系。5. map tasks的个数是由splits的长度决定的。...原创 2021-11-02 21:30:46 · 190 阅读 · 0 评论 -
HDFS读数据流
1.原创 2021-11-02 19:25:41 · 58 阅读 · 0 评论 -
YARN的工作机制
1,客户端向 Yarn 集群提交应用程序,即job。2,ResourceManager 进程和 NodeManager 进程进行通信,根据集群的资源情况,分配第一个 Container 给集群的某个 NodeManager,NodeManager 启动 Container。3,ResourceManager 将 MapReduce ApplicationMaster 分发到刚才启动的 Container 上,并在容器中启动。4,MapReduce ApplicaitonMaster 启...原创 2021-11-02 20:59:26 · 175 阅读 · 0 评论 -
HDFS写数据流
HDFS写数据流1.客户端向名称节点发出写数据流的请求。2.名称节点通过多种验证,查看新文件是否已存在系统,若存在则创建失败,不上传文件,若不存在则上传,并告知客户端写数据。3.当客户端开始写入数据时,DFSDataOutputStream会将文件分割成包,然后放入一个内容“数据队列”中,数据流系统会将这些小的文件放入数据流中,然后DataStreamer请求名称节点为新的文件包分配合适的数据节点存放副本。返回的数据节点形成一个“管道”,管道中的数据节点将文件包以流的方式传给第一个数据节点...原创 2021-10-26 23:36:06 · 122 阅读 · 0 评论