关闭

一些文章的搜集——关于Hadoop

标签: hadoop
330人阅读 评论(0) 收藏 举报
分类:

Hadoop 要做的事 首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果 通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作。比如 1亿个 1 相加 得出计算结果, 我们很轻易知道结果是 1亿.但是计算机不知道.那么单台计算机处理的方式做一个一亿次的循环每次结果+1那么分布式的处理方式则变成 我用 1万台 计算机,每个计算机只需要计算 1万个 1 相加 然后再有一台计算机把 1万台计算机得到的结果再相加从而得到最后的结果.理论上讲, 计算速度就提高了 1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算 大抵也就是这么回事了.
——摘自2
1、Hadoop新手学习指导-大数据(hadoop系列)学习-about云开发
http://www.aboutyun.com/thread-6179-1-1.html
2、hadoop使用场景-大数据(hadoop系列)学习-about云开发
http://www.aboutyun.com/thread-5726-1-1.html
3、Hadoop到底能做什么?怎么用hadoop?-大数据(hadoop系列)学习-about云开发
http://www.aboutyun.com/forum.php?mod=viewthread&tid=5199&highlight=hadoop

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:72754次
    • 积分:1100
    • 等级:
    • 排名:千里之外
    • 原创:28篇
    • 转载:40篇
    • 译文:1篇
    • 评论:22条
    文章分类
    最新评论