大数据导论作业
包乌日山
这个作者很懒,什么都没留下…
展开
-
数据分析与数据处理
数据处理包括8个方面:1.数据采集:采集所需的信息。2.数据转换:把信息转换成机器能够接受的形式。3.数据分组:指定编码,按有关信息进行有效的分组。4.数据组织:整理数据或用某些方法安排数据,以便进行处理。5.数据计算:进行各种算术和逻辑运算,一边的到进一步的信息。6.数据储存:将原始数据或计算的结果保存起来,供以后使用。7.数据检索:按用户的要求找出有用的信息。8.数据排序:把数据按一定要求拍成次序。数据分析1.简单数学运算。2.统计。3快速傅里叶变换。原创 2021-11-04 18:50:07 · 2771 阅读 · 0 评论 -
数据分析与数据挖掘
数据分析主要侧重于通过对历史数据的统计分析,提炼出数据中深层次的价值,并将结果的有效信息呈现出来;而数据挖掘则侧重于从数据中发现只是规则,并基于此对未知数据进行预测分析。原创 2021-11-04 13:13:09 · 116 阅读 · 0 评论 -
YARN的工作机制
1.客户端提交应用程序给ResourceManager。2.ResouceManager会生成ApplicationMaster,并在某一个节点服务器上 运行ApplicationMaster。3.ApplicationMaster向ResourceManger注册其信息,并且向ResourceManger发送 申请资源报告,申请contaniner容器,以运行application下的任务。4.在运行过程中,由applicationMaster来运行和管理con...原创 2021-10-30 21:58:01 · 156 阅读 · 0 评论 -
HDFS的block和切片的区别
1.split是MapReduce里的概念,是切片的概念,split是逻辑切片;而block是hdfs中切块的大小,block是物理切块。2.split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。3.Block;当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。4.Split:split是原创 2021-10-30 20:50:45 · 94 阅读 · 0 评论 -
节点距离计算
1.同一集群不同同一节点上,他们距离是0。2.同一机架不同节点之间距离是1,所以1+1=2。3.同一集群不同机架的节点,不同节点不同机架的距离是1和2。所以距离是44.同一个数据中心不同集群的节点,节点到数据中心距离是3,所以距离是6....原创 2021-10-30 20:15:02 · 149 阅读 · 0 评论 -
HDFS读数据流程
1.与NameNode通信查询元数据,找到文件块所在的DataNode服务器。2.挑选一台DataNode服务器,请求建立socket流。3.DataNode开始发送数据流,以packet.4.客户端以packet为单位接收,先在本地缓存,然后写入目标文件。...原创 2021-10-30 19:12:16 · 53 阅读 · 0 评论 -
HDFS写入数据流程
1. 客户端向NameNode发出写文件请求。2.检查是否已存在文件。检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流对象。3.NameNode返回是否可以上传。4.client请求第一个block.5.NameNode返回n个DataNode服务器,如ABC.6.client请求最近的第一个DataNodeA节点,此后client端和多个DataNode构成pipeline管道。7.当一个Block传输完成之后,client再次请求NataNode上传第二个b..原创 2021-10-30 18:51:17 · 265 阅读 · 0 评论