自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

RayJoel的博客

原创统计学，机器学习，深度学习，数据挖掘的联系

1.数据挖掘(Data Mining)顾名思义就是从海量数据中“挖掘”隐藏信息，按照教科书的说法，这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”，信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中，企业希望让存放在数据库中的数据能“说话”，支持决策。所以，数据挖掘更偏向应用。2.机器学习(Machine Learning)是指用某些算法指导计算机利用已知数据得出适当的模型，并利用此模型对新的情境给出判断的过程。3.深度学习

2021-11-04 22:44:53 600

原创 YARN的工作机制

YARN（资源管理框架）: 新一代Hadoop资源管理器，用户可以运行和管理同一个物理集群机上的多种作业。它可以对集群中的各类资源进行抽象，并按照一定的策略将资源分配给应用程序或服务。步骤说明： 1.在客户端，用户会向资源管理器请求执行运算或执行任务。 2.资源管理器收到请求后根据资源挑选一个合适的NN，统筹管理运算的请求。 3.在其他DataNode会有节点管理负责运行以及监督每一个任务，并且向资源管理器汇报任务状况。...

2021-11-02 19:42:00 99

原创 HDFS的block和切片（split）的区别

说明：1.Block：当我们把文件上传到HDFS时，文件会被分块，这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。2.Split：split是逻辑意义上的split。通常在 M/R 程序或者其他数据处理技术上用到。根据你处理的数据量的情况，split size是允许用户自定义的。3.split是MapReduce里的概念（切片）,而block是hdfs中切块的大小。4.split是逻辑切片，block是物理切块。5.split的大小..

2021-11-01 22:10:07 301

原创节点距离计算

说明：节点距离=两个节点到达最近的共同祖先的距离总和。 1.在同一节点上，它们之间的距离为0。 2.在同一机架上的不同节点上，两个节点到机架的距离都是1，所以这两个节点的距离为1+1=2。 3.在同一集群的不同机架上的节点，要到这个机架(1)，然后到达集群(2)，所以两个节点的距离为2+2=4。 4.在同一数据中心的不同集群上的节点，一个节点到数据中心的距离是3，两个节点的距离就是3+3=6。...

2021-11-01 21:48:04 1141

原创 HDFS读数据流程

步骤文字说明： 1.客户端通过调用分布式文件系统（Distributed File System)中的函数来读取所需数据。 2.分布式文件系统（Distributed File System)通过（Namenode)名称节点来请求文件块所在位置，之后（Namenode)名称节点返回文件块所在位置的元数据（注并不是全部返回）。 3.完成位置访问，HDFS客户端通过(FSDataInputStream)文件系统数据输出流来读取文件。 4.HDFS客户端通过(FS...

2021-10-29 22:01:30 734

原创 HDFS写数据流程

步骤文字说明1.客户端通过分布式文件系统（调用Create)请求创建一个新文件，名称节点（NN）通过验证请求的客户端，创建一个新文件。如创建成功，则分布式文件系统返回一个文件系统数据输出流，交给请求客户端写数据。如创建失败，显示IOException异常。2.客户端调用Write函数，写入数据。3.当客户端写入数据，文件系统数据输出流会将文件分割成一个个文件包放在数据队列中，数据队列会将这些小文件包放入数据流中，NN将把这些文件存放在合适的数据节点中。4.文...

2021-10-26 22:31:12 429

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除