自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 统计学,机器学习,数据挖掘和深度学习之间的区别

统计学,机器学习,数据挖掘和深度学习之间的区别1.统计学统计学主要通过利用大量数据进行量化分析,总结出一些经验规律,做出后期推断和预测,从而为相关决策提供依据和参考,其不仅仅是统计数字,还包含了调查、收集、分析、预测等,应用范围十分广泛。2.数据挖掘也就是data mining,是一个很宽泛的概念。字面意思就是从成吨的数据里面挖掘有用的信息。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。3.机器学习机

2021-11-04 21:57:13 453 1

原创 YARN的工作机制

YARN的工作机制RM 负责接收用户提交的任务,并且决定为任务分配多少资源和调度到哪个 NM 去执行;NM 是真正执行任务的节点,周期性的向 RM 汇报自己的资源使用状况并领取 RM 分配的任务,负责启动和停止任务相关的进程等工作。1.客户端向 ResourceManager(RM)提交任务,同时指定到哪个队列和需要多少资源;2. ResourceManager(RM)在收到任务的请求后,选择一个满足队列和资源需要的NodeManager(NM),通知它启动一个特殊的container(Applica

2021-11-02 22:05:00 113

原创 节点距离计算

节点距离计算节点距离=两个节点到达最近的共同祖先的距离总和1.在同一节点上,节点之间的距离是0;2.在同一机架上的不同节点上(两个节点的共同点是同一机架),两个节点到机架的距离都是1,所以两个节点之间的距离是1+1=2;3.在同一集群的不同机架上(两个节点的共同点是同一集群),而节点要到达集群,首先要到机架(距离是1)再到集群(距离是2),所以两个节点之间的距离是2+2=4;4.在同一数据中心的不同集群上(两个节点的共同点是同一数据中心),而节点要到达数据中心,首先到机架(距离是1)再到集群(距离

2021-10-31 20:50:26 266

原创 HDFS读数据流程

HDFS读数据流程1.客户端(Cilent)访问名称节点(NameNode),查询元数据信息,获得这个文件的数据块文件列表,返回输入流对象;2.获取距离客户端(Cilent)最近的DateNode,并与其建立通信,客户端(Cilent)直接从数据节点(DateNode)以数据流的方式读取数据;3。关闭数据流...

2021-10-31 17:44:22 100

原创 HDFS写数据流程

HDFS写数据流程1.客户端通知名称节点:我要写文件了。2.名称节点创建一个新的文件记录。(前提是:确认客户端拥有创建文件的权限和没有相同的文件后)3.文件将被分成一个个的数据块(默认大小:64MB)通过文件流的方式往数据节点中写数据(注意:写数据时会写冗余数据,冗余数据块的默认个数是3个)。4....

2021-10-31 16:52:24 136

原创 HDFS中的block和split的区别及联系

1)HDFS是一个高度容错性系统(2)HDFS中的block和split的区别及联系(3)block是物理块,文件存放到HDFS上后,会将大文件按照每块128MB的大小切分,存放到不同的DataNode上。(block大小是系统按照固定模式设置的,默认配置就是最佳实践)注意:(*)在hadoop1.x版本中,block默认的大小为64MB,在hadoop2.x版本修改成了128MB。默认block的大小参数配置以字节为单位(例如134217728,128MB)也可以使用如128k,512m,1g等

2021-10-26 22:16:59 905

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除