复习hadoop

最新推荐文章于 2024-06-13 22:12:11 发布

财神到哪了

最新推荐文章于 2024-06-13 22:12:11 发布

阅读量443

点赞数

分类专栏：大数据文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013240965/article/details/53105245

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1 do what
ssh-交互 hadoop-计算
2 what is apache hadoop？
是个服务于开源软件（提供可靠可扩展分布式计算）的project。
3 解决的问题包含有：

海量数据存储（数据量很大hdfs）
海量数据分析(mapreduce)
资源管理调度（细节，yarn）

大数据用到很多技术，融入了很多名企的优秀技术；例如hive(facebook的技术)
mahout(亚马逊贡献的)
nutch(爬虫)等等都属于其底层东西。。。。

集群（模块或节点之间互相协作）分布式是hadoopd 的关键词，核心是HDFS分布式文件系统（和NDFS有许多相似处） YARN资源管理调度系统 Mapreduce分布式运算框架（程序）

云计算和大数据不一样，云计算这块当中完全成熟的技术是虚拟化技术。
hdfs,实现机制：文件被切块存在多台服务器，对客户端，不需要关心分布式的细节，hdfs提供了一个抽象的统一的目录树;每一个文件块可以保存多个副本；hdfs中的文件和具体实际存储的位置之间的对应关系由一个专门的服务器管理-namenode。
mapreduce*较复杂*
map（高并发互不干扰的运算）得到局部结果==> 遍历汇总==>reduce（经过一定逻辑运算）后得到全局结果。总而言之就是

将一个业务处理需求分成两个阶段 map阶段和reduce阶段
将分布式计算中面临的公共的问题封装成框架来实现（jar包的分发任务的启动任务的容错调度中间结果的分组传递）
（应用开发人员只需要关心业务逻辑）
类似的mapreduce(离线分析计算)分布式运算框架还有 storm(流式计算) spark（内存迭代计算）..

财神到哪了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复习hadoop

1 do what ssh-交互 hadoop-计算 2 what is apache hadoop？是个服务于开源软件（提供可靠可扩展分布式计算）的project。 3 解决的问题包含有：海量数据存储（数据量很大hdfs）海量数据分析(mapreduce)资源管理调度（细节，yarn）大数据用到很多技术，融入了很多名企的优秀技术；例如hive(facebook的技术) ma
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。