一些文章的搜集——关于Hadoop

原创 2015年07月07日 13:49:41

Hadoop 要做的事 首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果 通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作。比如 1亿个 1 相加 得出计算结果, 我们很轻易知道结果是 1亿.但是计算机不知道.那么单台计算机处理的方式做一个一亿次的循环每次结果+1那么分布式的处理方式则变成 我用 1万台 计算机,每个计算机只需要计算 1万个 1 相加 然后再有一台计算机把 1万台计算机得到的结果再相加从而得到最后的结果.理论上讲, 计算速度就提高了 1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算 大抵也就是这么回事了.
——摘自2
1、Hadoop新手学习指导-大数据(hadoop系列)学习-about云开发
http://www.aboutyun.com/thread-6179-1-1.html
2、hadoop使用场景-大数据(hadoop系列)学习-about云开发
http://www.aboutyun.com/thread-5726-1-1.html
3、Hadoop到底能做什么?怎么用hadoop?-大数据(hadoop系列)学习-about云开发
http://www.aboutyun.com/forum.php?mod=viewthread&tid=5199&highlight=hadoop

Hadoop Demo 1 ——WordCount 统计文章中单词的个数

其实统计文章中单词的个数问题是我们曾经学习任何一门语言都可能遇到的例子,这个例子在实际业务场景中可能扩展为:分析网站发表的文章是否包含过激言论(言论中包含敏感词组或单词,国家领导人名字等) 有人说要...

(第2篇)一篇文章教你轻松安装hadoop

这篇文章将会手把手教你安装hadoop,只要你细心按照文章中的步骤操作,hadoop肯定能正确安装,绝对不会让你崩溃...
  • ijia1
  • ijia1
  • 2017年03月10日 15:03
  • 264

hadoop版本比较 【文章转载】

一、背景介绍 生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。 Apa...

Hadoop家族系列文章

Hadoop家族系列文章 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zook...
  • sqzhao
  • sqzhao
  • 2015年09月22日 17:34
  • 252

Hadoop系列文章之一:小象诞生

提及Hadoop这一大数据存储和处理工具,自然要从它的爸爸Doug Cutting说起。Doug Cutting不仅仅是Hadoop的创始人,还是大名鼎鼎的搜索引擎工具Lucene的开创者。一个程序员...

Hadoop系列文章之三:技术未来

Hadoop的未来如何,一个重要的影响因素是技术的更新和进步。从最近几年Hadoop和其他大数据相关技术的发展,我们可以看出一些端倪。  数据存储 – 前景乐观  从文件存储技术来看,HD...

(第1篇)什么是hadoop大数据?我又为什么要写这篇文章?

hadoop是什么?hadoop是如何发展起来的?怎样才能正确安装hadoop环境?
  • ijia1
  • ijia1
  • 2017年03月09日 16:01
  • 256
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:一些文章的搜集——关于Hadoop
举报原因:
原因补充:

(最多只允许输入30个字)