包乌日山-CSDN博客

原创数据分析与数据处理

数据处理包括8个方面：1.数据采集：采集所需的信息。2.数据转换：把信息转换成机器能够接受的形式。3.数据分组：指定编码，按有关信息进行有效的分组。4.数据组织：整理数据或用某些方法安排数据，以便进行处理。5.数据计算：进行各种算术和逻辑运算，一边的到进一步的信息。6.数据储存：将原始数据或计算的结果保存起来，供以后使用。7.数据检索：按用户的要求找出有用的信息。8.数据排序:把数据按一定要求拍成次序。数据分析1.简单数学运算。2.统计。3快速傅里叶变换。

2021-11-04 18:50:07 2994

原创数据分析与数据挖掘

数据分析主要侧重于通过对历史数据的统计分析，提炼出数据中深层次的价值，并将结果的有效信息呈现出来；而数据挖掘则侧重于从数据中发现只是规则，并基于此对未知数据进行预测分析。

2021-11-04 13:13:09 150

原创 YARN的工作机制

1.客户端提交应用程序给ResourceManager。2.ResouceManager会生成ApplicationMaster,并在某一个节点服务器上运行ApplicationMaster。3.ApplicationMaster向ResourceManger注册其信息，并且向ResourceManger发送申请资源报告，申请contaniner容器，以运行application下的任务。4.在运行过程中，由applicationMaster来运行和管理con...

2021-10-30 21:58:01 188

原创 HDFS的block和切片的区别

1.split是MapReduce里的概念,是切片的概念,split是逻辑切片;而block是hdfs中切块的大小,block是物理切块。2.split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。3.Block；当我们把文件上传到HDFS时，文件会被分块，这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。4.Split：split是

2021-10-30 20:50:45 128

原创节点距离计算

1.同一集群不同同一节点上，他们距离是0。2.同一机架不同节点之间距离是1，所以1+1=2。3.同一集群不同机架的节点，不同节点不同机架的距离是1和2。所以距离是44.同一个数据中心不同集群的节点，节点到数据中心距离是3，所以距离是6....

2021-10-30 20:15:02 210

原创 HDFS读数据流程

1.与NameNode通信查询元数据，找到文件块所在的DataNode服务器。2.挑选一台DataNode服务器，请求建立socket流。3.DataNode开始发送数据流，以packet.4.客户端以packet为单位接收，先在本地缓存，然后写入目标文件。...

2021-10-30 19:12:16 88

原创 HDFS写入数据流程

1. 客户端向NameNode发出写文件请求。2.检查是否已存在文件。检查权限。若通过检查，直接先将操作写入EditLog,并返回输出流对象。3.NameNode返回是否可以上传。4.client请求第一个block.5.NameNode返回n个DataNode服务器，如ABC.6.client请求最近的第一个DataNodeA节点，此后client端和多个DataNode构成pipeline管道。7.当一个Block传输完成之后，client再次请求NataNode上传第二个b..

2021-10-30 18:51:17 323

原创 2021-10-26

HDFS数据流程（1）客户端通过 DistrbutedFileSystm 向 NameNode 请求下载文件，NameNode 通过查询元数据，找到文件块所在的 DateNode地址。（2）挑选一台 Date（就近原则，然后随机）服务器，请求读取数据。（3) DateNode 开始传输数据给客户端（从磁盘里面读取数据输入流，以 Packet 为单位来做效验）（4）客...

2021-10-26 21:13:20 113