- 博客(6)
- 收藏
- 关注
原创 统计学,机器学习,数据挖掘和深度学习之间的区别
统计学,机器学习,数据挖掘和深度学习之间的区别1.统计学统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。2.数据挖掘也就是data mining,是一个很宽泛的概念。字面意思就是从成吨的数据里面挖掘有用的信息。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。3
2021-11-07 22:53:50
486
原创 YARN的工作机制
1. 用户使用客户端向 RM 提交一个任务,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置。2. RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationMaster(AM),后续流程由它发起。3. AM 向 RM 注册后根据自己任务的需要,向 RM 申请 container,包括数量、所需资源量、所在位置等因素。4. 如果队列有足够资源,RM 会将 container 分配给有
2021-10-27 22:46:40
142
原创 HDFS的block和切片(split)的区别。
1.split是MapReduce里的概念,是切片的概念,split是逻辑切片;而block是hdfs中切块的大小,block是物理切块。2.split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。3.Block;当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。4.Split:spl
2021-10-27 22:39:14
350
原创 节点距离计算
1.同一机架的同一节点,不用说都知道是02.同一机架的不同节点,n1,n2的共同祖先是r1,n1到r1的距离是1,n2到r1的距离是1,所以节点距离就是23.同一数据中心不同机架上的节点,r2的n0与r3的n2共同祖先是集群d1,n0到d1的距离是2,n2到d1的距离也是2,所以节点距离就是44.不同数据中心的节点,共同祖先是数据中心的父亲,所以节点距离是3+3=6...
2021-10-27 22:26:33
166
原创 HDFS写数据流程
1.确认文件是否存在,父目录是否已经存在。2.确认客户端权限和没有相同的文件后,名称节点创建一个新的文件记录。3.将文件分成数据块,通过数据流的方式往数据节点中写数据。客户端调用FSDataOutputStream的Write()函数,向对应的文件写入数据。4.数据节点将文件包以流的方式传给队列中的第一个数据节点,依次重复操作,直到最后一个。5.最后,都写完后数据节点再向客户端发出确认,然后客户端向名称节点发出结束消息,并将文件的块信息存储在名称节点中。...
2021-10-26 22:45:40
243
原创 1.HDFS读数据流程
1.客户端通过调用分布式文件系统对象中的Open()函数来读取它所需要的数据。2.Distributed File System 会通过RPC协议调用名称节点来确定请求文件块所在的位置。3.对输入流调用Read()方法。4.客户端利用FSDataInputStream的Read(),随即链接距离最近的,通过对数据流反复调用Read()方法。5.FSDataInputSream连接保存此文件第一个数据块的最近的数据节点,并以数据流的形式读取数据,客户端多次调用Read(),直接到达数据块结束位
2021-10-26 22:09:01
868
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人