自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 机器学习深度学习和统计学,数据挖掘的区别

机器学习。是人工智能的一个子集,它赋予计算机一定的独立思考能力。这之所以能够实现,是因为给它大量的数据,由算法处理这些数据,然后从中学习,以便作出预测和决定,这个过程并没有专门的编程。机器能够高效地从现有例子中进行学习,以解决新问题。深度学习是一种受人类大脑神经元之间的联系而启发出来的机器学习方式。研究人员对这种生物连接进行了人工模拟,成为人工神经网络。他的目的是让机器具有智能,通过神经网络来实现,神经网络就类似人的大脑,通过多次训练之后,“大脑”就可以开始具备某种能力。这个训练过程总,我们只需要告诉这

2021-11-04 16:35:07 487

原创 HDFS读数据流程

1client向namenode请求block所在的datanode节点列表;2client从最近位置逐个依次从datanode中读取block信息;3整个通过io流读取的过程需要校验每个快信息;4读取完成,关闭所有流。首先调用FileSystem的open方法获取一个DistributedFileSystem实例;然后DistributedFileSystem实例通过RPC在NameNode里获得文件的第一批block的locations(可能是需要读取文件的全部,也可能是一部分),同一个b

2021-11-02 23:59:59 173

原创 YARN的工作流程

YARN的工作流程Yet Another Resource Negotiator(另一种资源协调者)Yarn功能上负责资源管理与程序调度

2021-11-02 23:42:19 136

原创 HDFS写数据流

HDFS写数据流 1首先客户端打开分布式文件系统,向名称节点发出请求。2namenoda创建一个分布式实例。3客户端中的数据源源不断的写入fsdataouputstream数据流中。4fsdataouputstream将数据输入datanode中之后又同步到其他datanode中。 5同步完成后数据又给到前面的datanode中然后反馈给fsdataouputstream中。6写完之后这个流程关闭。...

2021-11-02 22:16:39 119

原创 节点距离计算

节点距离计算在HDFS写数据的过程中,NameNode会选择距离上传数据最近的DataNode接收数据。节点距离:两个节点到达最近的共同祖先的距离总和。例如:5和9的共同祖先为6,所以5到9的距离为3....

2021-11-02 21:18:55 67

原创 HDFS的block和切片(split)的区别

HDFS的block和切片(split)的区别1.split是MapReduce里的概念,是切片的概念,split是逻辑切片,而block是物理切块。2.split的东西大小在默认的情况下和HDFS的block切块大小一致,为的是MapReduce处理的时候减少由于split和block之间大小不一致,可能会有多余的网络之间的传输。(1)一个文件从本地被上传到HDFS时,会进行分块,块大小默认是64M,同时会产生副本数保存在其他datanode上,默认副本数是3个,课通过配置文件修改(2.

2021-11-02 21:01:26 1536 1

实验十一.ms14

实验十一.ms14

2022-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除