Hadoop学习笔记——01.简介

最新推荐文章于 2024-07-24 08:23:26 发布

tongbiaos

最新推荐文章于 2024-07-24 08:23:26 发布

阅读量337

点赞数

分类专栏： Hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tongbiaos/article/details/54563622

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

课程来源：网易云课堂——《大数据培训之Hadoop》《Hadoop实战》

<--------------------------------------------------------------->

Hadoop是针对海量数据处理的一个计算框架，可以很好的完成海量数据的存储和计算。

分布式：将众多的节点资源协同起来完成计算工作

可靠：单个节点故障不会影响整个程序的运行

可伸缩：任何单个节点的增加和删除不会影响到整个程序的运行

2002年Apache开了一个项目叫Nutch，目的是抓取网页，但是碰到了一个海量数据存储的问题

2003年 google工程师发表论文提出以分布式方式存储大量数据。

2004年 Nutch小组人员参考google的论文开发了NDFS。

2004年google发表了MapReduce 算法（映射-化简）。

下面2012年统计情况：

数据单位换算：

1t = 1024g

1p = 1024t

1e = 1024p

1z = 1024e

1y = 1024z

这么大量的数据怎么存储？怎么运算？

1.存储（使用hdfs文件系统）

将数据分割开来，即分布式存储（dfs:distributed file system）-> hdfs

2.运算（mapreduce算法）

mapreduce : map(映射) -- reduce(化简)

<--------------------------------------------------------------->

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop学习笔记——01.简介

课程来源：网易云课堂——《大数据培训之Hadoop》《Hadoop实战》Hadoop是针对海量数据处理的一个计算框架，可以很好的完成海量数据的存储和计算。分布式：将众多的节点资源协同起来完成计算工作可靠：单个节点故障不会影响整个程序的运行可伸缩：任何单个节点的增加和删除不会影响到整个程序的运行 2002年Apache开了一个项目叫Nutch，目的是抓取网页，但是碰到
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。