大数据基础架构（自学取自尚硅谷）

最新推荐文章于 2024-04-30 09:53:39 发布

whaleseeker

最新推荐文章于 2024-04-30 09:53:39 发布

阅读量624

点赞数

分类专栏：笔记文章标签：大数据 hadoop 架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/goldseeker1/article/details/115228592

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

此文为个人平时学习对大数据的个人理解笔记分享，有不对的地方还请大佬多指正，谢谢。

一.什么是大数据技术？

大量的数据，等级在TB=1024GB,PB,EB级别

主要用于解决大量数据的 处理&分析，两大难题就是如何存&如何算

二. 一般人找大数据工作可以做什么岗位？

在这里插入图片描述

难度级别（灾难到平民）：平台—》数据挖掘/报表开发—〉实时指标分析性能调优—》数据仓库

三。大数据思想和的来源。

1.GFS(Google File System) —>HDFS(Hadoop Distributed File System)

最先用到大数据的永远是搜索引擎，比如国内最早用的是百度,用的是分布式存储的思想，大意是大文件分多份小份复制之后储存在多部电脑里，目标：为了保证大数据很多细节数据不易丢失且可以提高查找数据的效率。

2.Map-Reduce (分布式计算框架）—> MR

3.BigTable（分布式数据库）—>HBase

其中，Hadoop实现了HDFS&&Map-Reduce的功能

四。Hadoop2.x的架构组成部分（目前已经到3.x时代）

1.Map-Reduce(计算)：管算的

2.Yarn(资源调度)//解藕：目标是为了分配资源（可以理解为人员）进行大数据计算

**3.HDFS(数据存储)：**管存的

4.Common（辅助工具，相比而言不重要）

大概思路：调度资源对数据存储里的数据进行计算

五。HDFS的架构?(2xx和3xx架构上没有什么大变动)

问：如果把大象（大数据）装进冰箱（储存）需要分几步？

答：第一步，把冰箱门打开（来几个10t硬盘）

第二步，把大象塞进去（冰箱的架构是什么？）

NameNode对应主机黑手党老大，记录存储大象的元数据，比如大象的体重，颜值等级，脂肪含量；；；对应的是文件名，文件目录结构，文件属性

Datanode 对应帮派小弟，打工人，具体存文件数据(quantitative)

Second NameNode(2NN) 对应黑手党会计，管家助手，每隔一段时间对数据进行备份

注：2nn不是n的热备，也就是说n挂了2nn不会顶上去（管家不能继承黑手党老大的位置）

第三部，把冰箱门关上

六。YARN的架构？

----------------------------------计算机可调用的部分为cpu和内存，磁盘为hdfs管

主机（红星老大）：resource manager

从机（陈近南，地区扛把子）：node manager 负责管理节点的cpu和内存（管自己地区的小弟，也就是数据，这些小弟和扛把子构成集群）

每个扛把子把自己有多大能耐汇报给社长老大，老大就知道说：我这个帮的上限在哪了

client（财阀）找到红星老大（主机）办事，老大叫来陈近南，陈近南分析一下汇报给老大说：“如果把事情办成，我还需要山鸡（其他的扛把子）等一起”（资源申请），老大去分配其他扛把子给他

这个时候陈近南担任分析的职位叫app master(设计师)----陈近南有两个职位。

等事情办完了结束了，陈近南就回到了扛把子的职位

注：一个活有且只有一个app master，一个app master可以一次接很多个活（多个client），方法是以container（类似虚拟机）

七。MapReduce的架构？

这是一个java程序，不是集群，是一个计算流程

阶段1.Map分（把寻找的任务分配给小弟）

阶段2.Reduce汇总（小弟汇总情况，谁找到谁没找到给汇总服务器）

八。Hadoop生态

kafka消息队列：数据的缓冲区

在这里插入图片描述

推荐系统架构

在这里插入图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
大数据基础架构（自学取自尚硅谷）

此文为个人平时学习对大数据的个人理解笔记分享，有不对的地方还请大佬多指正，谢谢。一.什么是大数据技术？大量的数据，等级在TB=1024GB,PB,EB级别主要用于解决大量数据的处理&分析，两大难题就是如何存&如何算二. 一般人找大数据工作可以做什么岗位？难度级别（灾难到平民）：平台—》数据挖掘/报表开发—〉实时指标分析性能调优—》数据仓库三。大数据思想和的来源。1.GFS(Google File System) —>HDFS(Hadoop Distributed F
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。