![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
云计算
lldustc
爱程序,爱美食,爱生活
展开
-
Storm开发
以Storm开发指南中的一个简单例子开始 import backtype.storm.Config; import backtype.storm.LocalCluster; import backtype.storm.StormSubmitter; import backtype.storm.task.OutputCollector; import backtype.storm.ta原创 2012-12-30 16:21:30 · 3476 阅读 · 0 评论 -
一步一步学习hadoop(三)
学东西都是从例子开始是最好的,从hadoop的一个简单的mapreduce作业开始 import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apach原创 2012-11-10 14:05:42 · 866 阅读 · 0 评论 -
一步一步学习hadoop(八)
Map任务执行类的实现 Hadoop MapReduce框架将要处理数据切分成片,将每个分片让一个map任务去完成,每个map任务都将分片数据解析为键值对数据,调用Mapper类的map函数,将输入键值对转化为输出键值对,输出键值对的类型和输入键值对的类型可以没有任何关系。一个输入键值键值对可以得到0个或者多个输出键值对。 Hadoop中的MapReduce作业调用Mappe原创 2012-11-13 12:55:03 · 885 阅读 · 0 评论 -
一步一步学习hadoop(十一)
Combiner和Partitioner Combiner一般被定义为mini Reducer或者本地Reducer,对一个mapper任务的输出进行归约,减轻网络流量消耗和Reducer任务的负担。从Combiner是继承Reducer类可以一窥它的功能。还是一WordCount的例子来说明Combiner的效果。两个Mapper任务的输出分别是 和 ,如果中间没有Co原创 2012-11-20 12:55:41 · 705 阅读 · 0 评论 -
一步一步学习hadoop(十)
MapRedcue作业的设置与运行 新版本的设置和旧版本的有较大区别,新版本使用job对象统一管理作业的配置和运行,删除了JobClient对象,实现了配置和运行的统一。 编写好了map函数和reduce函数,再对MapReduce作业进行适当的设置,MapReduce作业就可以在Hadoop框架上运行了。以一个简单的例子来讲解MapReduce作业的设置。该作业是原创 2012-11-15 12:19:17 · 603 阅读 · 0 评论 -
一步一步学习hadoop(十二)
MapReduce作业输出 hadoop的输出格式和输入格式对应,都是实现类OutputFormat,按使用方式分为三种,文本格式,二进制格式,自定义文件输出(??Multiple outputs)。 1.文本格式 TextOutputFormat是Hadoop的默认输出格式,对应于KeyValueInputFormat,将键值对转化为文本,中间以分隔符(默认为\t)隔开,分隔符可以在作原创 2012-12-08 21:50:23 · 1218 阅读 · 0 评论 -
Yarn初探
Yarn是新一代的MapReduce执行框架(简称为MapReduce2)和老版本的MapReduce执行框架(简称为MapReduce1)相比最大的改变是,将MapReduce1的JobTracker分解为两个部分,资源管理器和作业调度器。MapReduce2有一个全局的资源管理器(ResourceManager),负责计算分配集群的计算资源。资源管理器和多个节点管理器(NodeManager,原创 2012-12-09 17:06:15 · 1316 阅读 · 0 评论 -
Storm安装部署
Storm正式是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.8.1,基本是用Clojure写的。 Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时原创 2012-12-29 23:52:35 · 2142 阅读 · 0 评论 -
Storm基本概念
Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。 Storm的主工程师Nathan Marz表示: St原创 2012-12-30 09:30:30 · 867 阅读 · 0 评论 -
一步一步学习hadoop(一)
想要学习hadoop,首先要将把“刀”磨好,安装好hadoop,hadoop集群有三种模式:本地模式,伪集群模式和集群模式,其中本地模式和伪集群模式主要用于在本地测试程序,集群模式用于实际运行中。本地模式和伪集群模式非常类似,只是在hadoop的配置上有一点差别,这里先介绍hadoop的伪集群模式的安装步骤 1.运行环境安装 1)ubuntu linux 12.04,安装非常简单原创 2012-11-09 22:57:32 · 931 阅读 · 0 评论