MapReduce
Markooa
这个作者很懒,什么都没留下…
展开
-
用 Hadoop 进行分布式并行编程(二)程序实例与分析
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何针对一个具体的并行计算任务,基于 Hadoop 编写程序,如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。转载 2014-11-07 11:49:12 · 3595 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程(三)部署到分布式环境
转自:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/转载 2014-11-07 12:03:38 · 1877 阅读 · 0 评论 -
Hadoop初探:用MapReduce 进行大数据分析
Google 在 2001 年发布图像搜索功能时,只有 2.5 亿索引图像,不到 10 年,这个巨大的搜索功能已经可以检索超过 100 亿个图像了,每分钟有 35 小时的内容上传到 YouTube。据称,Twitter 每天平均处理 5500 万 tweet。今年早些时候,搜索功能每天记录 6 亿条查询记录。这 就是我们讨论大数据的意义所在。关于本系列从 Java 技术首次亮相以来,J转载 2014-11-05 16:03:31 · 1112 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程(一)基本概念与安装部署
基本概念与安装部署转载 2014-11-07 09:22:49 · 1072 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程(四)Java远程调用Hadoop服务
前面几篇都是在Hadoop环境中,使用Hadoop工具进行MapReduce计算。本篇介绍在Java应用中如何利用Hadoop服务进行MapReduce计算。一、安装配置Hadoop1、解压Hadoop$tar zxvf hadoop-1.2.1-bin.tar.gz /usr/local/app/hadoop2、配置Hadoop环境修改/etc/profile信息:e原创 2014-11-26 11:57:41 · 1053 阅读 · 1 评论 -
Hadoop 2.0中单点故障解决方案
Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。 令人欣慰的是,这些问题在Hadoop 2.0中得到了非常完整的解决。Hadoop 2.0内核由三转载 2014-12-17 13:40:56 · 946 阅读 · 0 评论