搭建云计算开发框架

       Hadoop集群环境包含主控节点和两个从属节点。在主从式结构中,主节点一般负责集群管理、任务调度和负载平衡等,而从节点从执行来自主节点的计算和存储任务。

      Hadoop实现了一个分布式文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,这样可以以流的形式访问文件系统的数据。

      Hadoop安装可以在linux上安装主要是安装虚拟机、SSH安装、安装java、解压Hadoop安装包、修改conf/hadoop-env.sh文件。hadoop集群主要支持三种模式:单机模式、伪分布模式和安全分布模式。最好用虚拟机安装方式,更快捷。

      当然,也可以在windows下安装,需要先安装Cygwin软件,可以到http://www.cygwin.com/setup.exe下载。

      HBase是一个分布式,面向列的开源数据库。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它非常适合于非结构化数据存储的数据库,HBase基于列而不是基于行的形式。

      HBase也一样支持三种模式,需要安装包:zookeeper-3.3.2.tar.gz、hbase-0.20.6.tar.gz。Zookeeper是Hadoop的正式子项目,是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配合维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

      MapReduce是一种编程模型,用于大规模数据集的并行运算。概念Map和Rduce的主要思想,都是从函数式编程语言里借来的,还有矢量编程语言里借来的特性,可以极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值中的每一个共享相同的键组。

     Pig是Hadoop的相关项目,构建在Hadoop之上的更高级的应用层次,在Hadoop的Map/Reduce模型下,用户开发并行应用程序就必须实现这两个函数接口,而通常情况下一个海量数据处理的作业需要很多Map/Reduce步骤才可以完成,如果直接调用Map/Reduce来设计实现,问题变得很复杂同时还要耗费更多的人才,无疑增加了开发成本,同时也很难保证并行程序的健壮性。而Pig的出现将会解决这些问题。

    Pig就是一个用户处理海量数据集的脚本语言,是Hadoop的更高级抽象。Map/Reduce的最大缺点就是开发周期比较长,编写Map函数和Reduce函数,同时还必须必须考虑具体的帮助下,用户只需要按照Pig脚本语言编写处理脚本即可以处理TB级以上的海量数据,Pig本身就会将用户编写的脚本转化为一系列的Map/Reduce作业,接着这些Map/Reduce作业最终在Hadoop集群中运行,这使得程序员将更专注于数据处理本身,而不是如何编写Map/Reduce应用程序。这一点将大大提高并行数据处理应用开发的效率。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值