- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 数据分析与数据处理
数据处理包括8个方面:1.数据采集:采集所需的信息。2.数据转换:把信息转换成机器能够接受的形式。3.数据分组:指定编码,按有关信息进行有效的分组。4.数据组织:整理数据或用某些方法安排数据,以便进行处理。5.数据计算:进行各种算术和逻辑运算,一边的到进一步的信息。6.数据储存:将原始数据或计算的结果保存起来,供以后使用。7.数据检索:按用户的要求找出有用的信息。8.数据排序:把数据按一定要求拍成次序。数据分析1.简单数学运算。2.统计。3快速傅里叶变换。
2021-11-04 18:50:07
2994
原创 数据分析与数据挖掘
数据分析主要侧重于通过对历史数据的统计分析,提炼出数据中深层次的价值,并将结果的有效信息呈现出来;而数据挖掘则侧重于从数据中发现只是规则,并基于此对未知数据进行预测分析。
2021-11-04 13:13:09
150
原创 YARN的工作机制
1.客户端提交应用程序给ResourceManager。2.ResouceManager会生成ApplicationMaster,并在某一个节点服务器上 运行ApplicationMaster。3.ApplicationMaster向ResourceManger注册其信息,并且向ResourceManger发送 申请资源报告,申请contaniner容器,以运行application下的任务。4.在运行过程中,由applicationMaster来运行和管理con...
2021-10-30 21:58:01
188
原创 HDFS的block和切片的区别
1.split是MapReduce里的概念,是切片的概念,split是逻辑切片;而block是hdfs中切块的大小,block是物理切块。2.split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。3.Block;当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。4.Split:split是
2021-10-30 20:50:45
128
原创 节点距离计算
1.同一集群不同同一节点上,他们距离是0。2.同一机架不同节点之间距离是1,所以1+1=2。3.同一集群不同机架的节点,不同节点不同机架的距离是1和2。所以距离是44.同一个数据中心不同集群的节点,节点到数据中心距离是3,所以距离是6....
2021-10-30 20:15:02
210
原创 HDFS读数据流程
1.与NameNode通信查询元数据,找到文件块所在的DataNode服务器。2.挑选一台DataNode服务器,请求建立socket流。3.DataNode开始发送数据流,以packet.4.客户端以packet为单位接收,先在本地缓存,然后写入目标文件。...
2021-10-30 19:12:16
88
原创 HDFS写入数据流程
1. 客户端向NameNode发出写文件请求。2.检查是否已存在文件。检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流对象。3.NameNode返回是否可以上传。4.client请求第一个block.5.NameNode返回n个DataNode服务器,如ABC.6.client请求最近的第一个DataNodeA节点,此后client端和多个DataNode构成pipeline管道。7.当一个Block传输完成之后,client再次请求NataNode上传第二个b..
2021-10-30 18:51:17
323
原创 2021-10-26
HDFS数据流程(1)客户端通过 DistrbutedFileSystm 向 NameNode 请求下载文件,NameNode 通过查询元数据, 找到文件块所在的 DateNode地址。(2)挑选一台 Date(就近原则,然后随机)服务器,请求读取数据。(3) DateNode 开始传输数据给客户端 (从磁盘里面读取数据输入流,以 Packet 为单位来做效验)(4)客...
2021-10-26 21:13:20
113
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人