![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据导论作业
m0_63518512
这个作者很懒,什么都没留下…
展开
-
统计学,机器学习,数据挖掘,深度学习
统计学:通过利用概率建立数学模型,收集所观察系统的数据,进行量化分析,总结,做出推理和预测。包含了,调查,收集,分析,预测等。 机器学习:对计算机一部分数据进行学习,然后对另外一些数据进行预测和判断。核心是使用算法解析数据,从中学习,然后对新数据做出决策或预测。 深度学习:是一种机器学习,基础叫神经网络。机器学习是深度学习的方法论,数学是其背后的理论支撑。 数据挖掘:是在大型的数据库中对有价值的信息知识进行获取,属于一种先进的数据信息模式。通过对海量的,杂乱无章的,不清晰的并且随机性很大的数据进行挖掘原创 2021-11-05 00:22:00 · 254 阅读 · 0 评论 -
Hadoop中Block和Split的区别
1.split 文件不可分割,一个文件一个split。通常一个split就是一个block,split size是允许用户自定义的,有多少个split,就有多少个mapper。 2.HDFS的block block的划分是物理划分,每块的大小可以通过hadoop进行设置,是实际的文件大小,而非一个块的大小。Block 非常适合用于数据备份,进而提供数据容错能力和可用性。分布式文件系统中数据块一般远大于磁盘数据块的大小,并且为磁盘块大小的整数倍。 ...原创 2021-11-02 22:12:26 · 1066 阅读 · 0 评论 -
YARN的工作机制
Resource Manger(RM):资源调查器,负责管理客户端请求,对各NM上的资源进行统一管理和调度。组成:调度器,程序管理器。 Application ManagerAMG)应用程序管理器:负责管理整个系统中所有应用程序,包括应用程序提交,与制度器协商资源以启动等。 Schedule:资源调度器 根据容量,队列等限制条件,将系统中的资源分配给各个正在运行的应用程序,调度器仅根据各个应用程序的资源需求进行资源分配。而资源分配的单位是container. Container:容器 是yarn...原创 2021-11-02 21:59:30 · 65 阅读 · 0 评论 -
HDFS读数据
1.客户端连接分布式文件系统, 2.访问Namenode查询名称节点中所储存的元数据信息; 3.读取文件块位置列表并返回输入流对象; 4.客户端向输出流对象请求读取数据; 5.输入流对象直接从数据节点以文件流的方式获取数据输出节点向输入流中写入数据 6.客户端完成读取后关闭与输出流连接 ...原创 2021-10-30 00:03:05 · 50 阅读 · 0 评论 -
节点距离计算
Distance(d1/r1/n1,/d1/r1/n3)=2 同一机架上不同的节点 Distance(d1/r1/n1,/d1/r2/n3)=4 同一数据中心不同机架上的节点 Distance(d1/r1/n3,/d2/r2/n3)=6不同数据中心的节点 从节点开始,向上寻找要计算的两个节点的路线重合的终点,从节点到机架距离为1,机架 到集群距离为1。两个节点到达最近祖先的距离总和。 例如:d1/r1/n1, d2/r1/n3 的距离为6. 首先n1到r1的距离为1;r1到d1的距离...原创 2021-10-26 20:24:18 · 94 阅读 · 0 评论 -
HDFS写数据流
HDFS写数据流流程: 1.客户端通知名称节点请求写入操作。 2.名称节点检查权限,通过后,名称节点创建一个新的文件记录并返回一个文件系统的数据输出流对象给客户端 (一个数据结构,用来完成数据节点与名称节点之间的通信) 3.客户端按块对文件进行划分,通过文件流的方式向数据节点中写入数据。 4.数据流通过管道传输给数据节点,第一个数据节点储存获得的数据包然后转给下一节点。 5.数据块写入操作完成后数据节点向客户端发出确认信息,再有客户端向名称节点发出结束,并将块信...原创 2021-10-26 22:09:55 · 155 阅读 · 0 评论