大数据入门

最新推荐文章于 2022-08-08 10:19:26 发布

Manfestain

最新推荐文章于 2022-08-08 10:19:26 发布

阅读量166

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Beans___Lee/article/details/105157747

版权

大数据主要解决海量数据（TB、PB或EB）的存储和海量数据的分析计算问题

大数据的特点：

Volume（大量）
Velocity（高速）
Variety（多样）
Value（低价值密度）

大数据部门组织结构

Hadoop

Apache基金会开发的分部式系统基础架构

GFS ---> HDFS
Map-Reduce ---> MR
BigTable ---> HBase

Hadoop三大发行版本

Apache：最基础的版本，对入门学习最好
Cloudera：在大型互联网且企业中用的较多（CDH版）
Hortonworks：文档较好

Hadoop1.x和Hadoop2.x的区别

HDFS

NameNode（nn）：存储文件的元数据，例如：文件名、文件目录结构、文件属性（生成时间、副本数和文件权限等）和每个文件的块列表和块所在的DataNode等。 $\Rightarrow$ 目录
DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。 $\Rightarrow$ 实实在在的数据
Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。 $\Rightarrow$ 辅助nn工作的

YARN

ResourceManager（RM）：所有节点资源的老大
NodeManager（NM）：单个节点资源的老大

MapReduce
MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

大数据技术生态体系

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Manfestain CSDN认证博客专家 CSDN认证企业博客

码龄7年

108: 原创

7万+: 周排名

225万+: 总排名

11万+: 访问

: 等级

926: 积分

81: 粉丝

56: 获赞

18: 评论

337: 收藏

私信

关注

热门文章

最新评论

腾讯云搭建伪分布式Hadoop集群
Chimung: 你好，我能使用jps查看到namenode，datanode 的进程，但无法通过浏览器查看，不知道什么原因
Radiomics学习总结
huhe1105: 楼主，您好。想请教您一些问题。有偿，谢谢。如可以➕我微信18047119491
特征提取之灰度游程（行程）矩阵-GLRLM
sinat_33417182: 请问def getGrayLevelRumatrix函数里的groupby是pandas里面的groupby吗？
U-Net分割细胞壁总结
weixin_44617336: 请问这个程序的整个代码可以在哪里下载呀
特征提取之灰度游程（行程）矩阵-GLRLM
范晓鸿回复 Manfestain: 恳请博主分享原文，想知道全部公式，谢谢！756662807@qq.com

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。