自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_63518485的博客

原创数据挖掘、统计学、机器学习、深度学习的关联

数据挖掘、统计学、机器学习的关联：数据挖掘可以认为是数据库技术与机器学习的交叉，它利用数据库技术来管理海量的数据，并利用机器学习和统计分析来进行数据分析。数据挖掘受到很多学科领域的影响，其中数据库、机器学习、统计学无疑影响最大。简单地说，数据库提供数据管理技术，机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用，因此，统计学界提供的很多技术通常都要在机器学习界进一步研究，变成有效的机器学习算法之后才能在进入数据挖掘领域。从这个意义上说，统计学主要是通过机器学习来对数据挖掘发

2021-11-04 23:07:28 656 1

原创 YARN的工作机制

YARN的工作机制用户使用客户端向 RM 提交一个任务job，同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置，如果没有特别指定，则使用默认设置。RM 在收到任务提交的请求后，先根据资源和队列是否满足要求选择一个 NM，通知它启动一个特殊的 container，称为 ApplicationMaster（AM），后续流程由它发起。AM 向 RM 注册后根据自己任务的需要，向 RM 申请 container，包括数量、所需资源量、所在位置等因素。如果队列有足够资源，RM 会

2021-11-02 10:27:33 82

原创 Block(块)和Split(切片)区别

一个split 不会包含零点几或者几点几个block，一定是包涵大于等于一个整数个block。一个split 不会包含两个File的block,不会跨越File边界。 split和block的关系是一对多的关系。 map tasks的个数是由split的长度决定的。...

2021-11-01 23:07:21 228

原创节点距离计算

Distance(/d1/r1/n0,/d1/r1/n0)=0(同一个节点上的进程） Distance(/d1/r1/n0,/d1/r1/n2)=2(同一个机架上的不同节点) Distance(/d1/r2/n0,/d1/r3/n2)=4(同一个数据中心不同机架上的节点) Distance(/d1/r2/n1,/d2/r4/n1)=6(不同数据中心的节点）...

2021-11-01 17:50:29 106

原创 HDFS读数据流程

1.客户端和namenode进行通信查询元数据(block所在的datanode节点),找到block所在的datanode服务器2. 挑选一台datanode,请求建立连接(就近原则,然后随机),请求建立socket流 3. datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验) 4. 客户端以packet为单位接受,首先在本地缓冲,然后写入目标文件,后面的block追加合并到这个文件,最后合成最终需要的文件。...

2021-10-31 23:52:49 86

原创 HDFS写数据流程

客户端向NameNode请求向HDFS中写入数据。然后NameNode会对发送请求的客户端进行权限检测，确认客户端权限有没有相同的文件。如果上面的都通过了，那么就给客户端返回可以写数据的DataNode信息。客户端和DataNode建立连接。因为我们集群存储数据是以副本形式储存的，所以为了提高文件存储的安全性，会将数据复制多份通过管道传到其他DataNode中。各种管道建了。等到数据都传完，客户端向NameNode发送完成写数据的消息。HDFS写数据流程图..

2021-10-31 22:47:49 109

实验六终.ms12

实验六终.ms12

2022-11-06

Python 字符串.textClipping.textclipping

Python 字符串.textClipping.textclipping

2022-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

小巫… CSDN认证博客专家 CSDN认证企业博客

码龄3年

IP 属地：内蒙古

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

6: 原创

91万+: 周排名

162万+: 总排名

1293: 访问

: 等级

68: 积分

0: 粉丝

1: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

分类专栏

大数据导论作业 6篇

最新评论

数据挖掘、统计学、机器学习、深度学习的关联
柠檬巴巴路亚: 数据挖掘可以认为是数据库技术与机器学习的交叉，它利用数据库技术来管理海量的数据，并利用机器学习和统计分析来进行数据分析。数据挖掘受到很多学科领域的影响，其中数据库、机器学习、统计学无疑影响最大。简单地说，数据库提供数据管理技术，机器学习和统计学提供数据分析技术。由于统计学界往往醉心于理论的优美而忽视实际的效用，因此，统计学界提供的很多技术通常都要在机器学习界进一步研究，变成有效的机器学习算法之后才能在进入数据挖掘领域。从这个意义上说，统计学主要是通过机器学习来对数据挖掘发挥影响，而机器学习和数据库则是数据挖掘的两大支撑技术。

最新文章

提示

确定要删除当前文章？

取消删除