- 博客(6)
- 问答 (1)
- 收藏
- 关注
原创 统计学、机器学习、数据挖掘与深度学习的区别与联系
1.统计学是收集、分析、表达和解释数据的科学。统计学是一门处理数据的方法和技术的学科。数学作为基础,计算机科学作为工具。统计研究的过程:a.取得数据 b.整理数据 c.分析解释数据2.机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。研究机器怎样模拟人类学习,是人工智能的核心,是使计算机具有智能的根本途径。3.数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在...
2021-11-02 17:35:14 1326
原创 YARN工作机制
让我们先来了解一下YARN是什么,YARN全称Yet Another Resource Negotiator(另一种资源协调者)是Hadoop2.X版本里面的资源协调者,在Hadoop1.X里面JobTrack是另一种资源协调者。YARN主要负责大数据里面的资源管理和程序调度。YARN主要由ResourceManager(统揽全局的核心)和NodeManager(负责管理每个计算机节点上的资源调度)组成。1.客户端提交应用请求一个ApplicationMaster的实例resource...
2021-10-31 22:53:27 975
原创 HDFS的block和切片(split)的区别
先来说一说block(数据块),HDFS存储数据在adtanode节点,而datanodo节点里是分为一个个block存数据的。大数据可能一个地方放不下,需要被拆开存放,并且拆开存放有利于数据的读取。HDFS文件系统默认block是文件存储最小单位(64MB或128MB)。HDFS支持文件“一次写入多次读取”,实际应用都是只写入数据一次但却读取一次或多次,并且读取速度应能满足流式读取的需要。block也有如下优势:1.支持大规模文件存储2.简化系统设计3.适合数据备份4.集中的存储..
2021-10-31 15:33:14 1521
原创 节点距离计算
在HDFS写数据流程中,namenode会选择距离待上传数据最近距离的datanode接收数据。总的来说节点距离=两个节点到达最近的共同祖先的距离总和。例如1.机架r1的n-0到机架r1的n-0的距离为0; 2.集群d1机架r1的n-1到集群d1机架r1的n-2的距离为各自到机架r1的距离总和=2; 3..集群d1机架r2的n-0到.集群d1机架r3的n-2的距离为各自到集群d1的距离总和,其中.集群d1机架r2的n-0到集群d1的距离为2,.集群d1机架r3的n...
2021-10-31 14:28:38 598
原创 HDFS读数据流程
HDFS读数据流程大概来说就是客户端提交读取请求到Namenode上收到请求后会判断此用户判断是否有此文件如果有客户端直接读取。1.客户端向Namenode请求读取数据块并获取数据块所在位置。2.Namenode判断此文件是否存在,查询数据所在位置,获取文件所在位置信息,如果存在返回客户端并带回文件所在位置信息。3.客户端根据文件所在位置请求读取数据。4.客户端进行读取若读取失败重新读取,客户端以packet为单位接收先在本地缓存,然后写进目标文件。 客户端将要读取的...
2021-10-30 20:11:25 204
原创 HDFS写数据流程
在了解HDFS写数据流程之前,我们先来了解HDFS是什么,干什么用的。 HDFS可以实现大数据的存储,并处理巨大的文件。而HDFS处理巨大文件的思路是将巨大的文件割成小块文件进行存储,称为”数据块分布式处理“。 接下来让我们看一下HDFS的写数据流程!其中Namenode(nn)是名称节点用来管理文件系统的命名空间。Datenode(dn)数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取。1.客户端向Namenode发出写数据请求。2.nn检查目...
2021-10-26 21:25:43 858
空空如也
crfsuite安装
2023-06-04
为什么有getchar()却直接跳过输入
2022-01-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人