浅谈分布式计算的开发与实现(1)

转载 2015年11月18日 23:22:33

阅读目录:

  1. 介绍
  2. 利用分片算法
  3. 利用消息队列
  4. Hadoop简介
  5. MapReduce
  6. 离线计算

介绍

分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。 目的在于分析计算海量的数据,从雷达监测的海量历史信号中分析异常信号(外星文明),淘宝双十一实时计算各地区的消费习惯等。

海量计算最开始的方案是提高单机计算性能,如大型机,后来由于数据的爆发式增长、单机性能却跟不上,才有分布式计算这种妥协方案。 因为计算一旦拆分,问题会变得非常复杂,像一致性、数据完整、通信、容灾、任务调度等问题也都来了。

举个例子,产品要求从数据库中100G的用户购买数据,分析出各地域的消费习惯金额等。 如果没什么时间要求,程序员小明就写个对应的业务处理服务程序,部署到服务器上,让它慢慢跑就是了,小明预计10个小时能处理完。 后面产品嫌太慢,让小明想办法加快到3个小时。

平常开发中类似的需求也很多,总结出来就是,数据量大、单机计算慢。 如果上Hadoop、storm之类成本较高、而且有点大才小用。 当然让老板买更好的服务器配置也是一种办法。

利用分片算法

小明作为一个有追求有理想的程序员,决定用介于单机计算和成熟计算框架的过度解决方案,这样成本和需求都能满足了。 分布式计算的核心在于计算任务拆分,如果数据能以水平拆分的方式,分布到5台机器上,每台机器只计算自身的1/5数据,这样即能在3小时内完成产品需求了。

如上所述,小明需要把这些数据按照一定维度进行划分。 按需求来看以用户ID划分最好,由于用户之间没有状态上的关联,所以也不需要事务性及二次迭代计算。 小明用简单的hash取模对id进行划分。

f(memberid) % 5 = ServerN

这样程序可以分别部署到5台机器上,然后程序按照配置只取对应余数的用户id,计算出结果并入库。 这种方式多机之间毫无关联,不需要进行通信,可以避免很多问题。 机器上的程序本身也不具备分布式的特性,它和单机一样,只计算自身获取到的数据即可,所以如果某台机器上程序崩溃的话,处理方式和单机一样,比如记录下处理进度,下次从当前进度继续进行后续计算。

利用消息队列

使用分片方式相对比较简单,但有如下不足之处。

  • 它不具有负载均衡的能力,如果某台机器配置稍好点,它可能最先计算完,然后空闲等待着。也有可能是某些用户行为数据比较少,导致计算比较快完成。
  • 还有一个弊端就是每台机器上需要手动更改对应的配置, 这样的话多台机器上的程序不是完全一样的,这样可以用远程配置动态修改的办法来解决。

小明这种方式引入了个第三方,消息队列。 小明先用一个单独的程序把用户信息推送到消息队列里去,然后各台机器分别取消费这个队列。 于是就有了3个角色:

  • 推送消息的,简称Master。
  • 消息队列,这里以Rabbitmq为例。
  • 各个处理程序,简称Worker或Slave都行。

虽然仅仅引入了个第三方,但它已经具备了分布式计算的很多特性。

  1. 计算任务分发。 Master把需要计算的用户数据,不断的推送消息队列。
  2. 程序一致性。 Worker订阅相同的消息队列即可,无需更改程序代码。
  3. 任意扩容。 由于程序完全一样,意味着如果想要加快速度,重复部署一份程序到新机器即可。 当然这是理论上的,实际当中会受限于消息队列、数据库存储等。
  4. 容灾性。 如果5台中某一台程序挂了也不影响,利用Rabbitmq的消息确认机制,机器崩溃时正在计算的那一条数据会在超时,在其他节点上进行消费处理。

Hadoop简介

Hadoop介绍已经相当多了,这里简述下比如:”Hadoop是一套海量数据计算存储的基础平台架构”,分析下这句话。

  • 其中计算指的是MapReduce,这是做分布式计算用的。
  • 存储指的是HDFS,基于此上层的有HBase、Hive,用来做数据存储用的。
  • 平台,指可以给多个用户使用,比如小明有一计算需求,他只需要按照对应的接口编写业务逻辑即可,然后把程序以包的形式发布到平台上,平台进行分配调度计算等。 而上面小明的分布式计算设计只能给自己使用,如果另外有小华要使用就需要重新写一份,然后单独部署,申请机器等。Hadoop最大的优势之一就在于提供了一套这样的完整解决方案。

下面找了介绍Hadoop的概览图,跟小明的设计做对比下:

  • 图中“大数据计算任务” 对应小明的100G用户数据的计算任务。
  • ”任务划分“ 对应Master和消息队列。
  • “子任务” 对应Worker的业务逻辑。
  • ”结果合并“ 对应把每个worker的计算结果入库。
  • “计算结果” 对应入库的用户消费习惯数据。

PS:为了方便描述,把小明设计的分布式计算,叫做小和尚。

MapReduce

由于MapReduce计算输入和输出都是基于HDFS文件,所以大多数公司的做法是把mysql或sqlserver的数据导入到HDFS,计算完后再导出到常规的数据库中,这是MapReduce不够灵活的地方之一。 MapReduce优势在于提供了比较简单的分布式计算编程模型,使开发此类程序变得非常简单,像之前的MPI编程就相当复杂。

狭隘的来讲,MapReduce是把计算任务给规范化了,它可以等同于小和尚中Worker的业务逻辑部分。 MapReduce把业务逻辑给拆分成2个大部分,Map和Reduce,可以先在Map部分把任务计算一半后,扔给Reduce部分继续后面的计算。 当然在Map部分把计算任务全做完也是可以的。 关于Mapreduce实现细节部分不多解释,有兴趣的同学可以查相关资料或看下楼主之前的C#模拟实现的博客【探索C#之微型MapReduce

如果把小明产品经理的需求放到Hadoop来做,其处理流程大致如下:

  1. 把100G数据导入到HDFS
  2. 按照Mapreduce的接口编写处理逻辑,分Map、Reduce两部分。
  3. 把程序包提交到Mapreduce平台上,存储在HDFS里。
  4. 平台中有个叫Jobtracker进程的角色进行分发任务。 这个类似小和尚的Master负载调度管理。
  5. 如果有5台机器进行计算的话,就会提前运行5个叫TaskTracker的slave进程。 这类似小和尚worker的分离版,平台把程序和业务逻辑进行分离了, 简单来说就是在机器上运行个独立进程,它能动态加载、执行jar或dll的业务逻辑代码。
  6. Jobtracker把任务分发到TaskTracker后,TaskTracker把开始动态加载jar包,创建个独立进程执行Map部分,然后把结果写入到HDFS上。
  7. 如果有Reduce部分,TaskTracker会创建个独立进程把Map输出的HDFS文件,通过RPC方式远程拉取到本地,拉取成功后,Reduce开始计算后续任务。
  8. Reduce再把结果写入到HDFS中
  9. 从HDFS中把结果导出。

这样一看好像是把简单的计算任务给复杂化了,其实如果只有几台计算任务的话,使用Mapreduce确实是杀鸡用牛刀了。 如果有TB、PB级别的数据、跑在成百上千台计算节点上,Mapreduce的优势才会体现出来。 其计算框架图架构如下:

离线计算

通常称Mapreduce及小和尚这种计算为离线计算,因为它对已经持久化的文件数据进行计算,不能实时响应。 还有个原因就是它的处理速度比较慢,它的输入和输出源都是基于HDFS设计,如果数据不是一开始就写入到HDFS上,就会涉及到数据导入导出,这部分相对耗费时间。 而且它的数据流动是基于文件系统的,Map部分输出的数据不是直接传送到Reduce部分,而是先写入HDFS再进行传送。

处理速度慢也是Mapreduce的不足之处,促使了后面实时计算的诞生。

另外个缺点是Mapreduce的计算任务流比较单一,它只有Map、Reduce两部分。 简单的可以只写一部分逻辑来解决,如果想拆分成多个部分,如逻辑A、逻辑B、逻辑C等, 而且一部分计算逻辑依赖上一次计算结果的话,MapReduce处理起来就比较困难了。 像storm框架解决此类问题的方案,也称为流式计算,下一章继续补充。

浅谈分布式计算的开发与实现(二)

作者:蘑菇先生 出处: http://mushroom.cnblogs.com/ 本文版权归作者和博客园共有,欢迎转载。 转载地址:http://www.cnblogs.com/mushroom/p...
  • stuwcc
  • stuwcc
  • 2016年09月20日 13:12
  • 134

浅谈分布式计算的开发与实现(2)

阅读目录: 实时计算storm简介流式计算归纳总结高容错性 实时计算 接上篇,离线计算是对已经入库的数据进行计算,在查询时对批量数据进行检索、磁盘读取展示。 而实时计算是在数据产生时...
  • buaa_shang
  • buaa_shang
  • 2015年11月19日 00:25
  • 675

浅谈分布式计算的开发与实现(一)

阅读目录: 介绍利用分片算法利用消息队列Hadoop简介MapReduce离线计算 介绍 分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结...
  • qq_35619711
  • qq_35619711
  • 2017年05月16日 20:03
  • 170

何为分布式计算

分布式计算是当前计算机领域常见的名词,那么到底什么事分布式,什么又是分布式计算呢?今天和大家共同研究一下这个话题。定义  一个分布式系统是由若干通过网络互联的计算机组成的硬件系统,而且者系计算机互相配...
  • u010926964
  • u010926964
  • 2016年03月22日 15:26
  • 2341

科普:并行计算、分布式计算、集群计算和云计算

1. 并行计算(Parallel Computing)     并行计算或称平行计算是相对于串行计算来说的。并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程...
  • wm_1991
  • wm_1991
  • 2015年12月11日 08:25
  • 9733

分布式计算——实现简单的浏览器和web服务器

此次是分布式的第三次作业,作业要求如下: 1、基于TCP通讯(ServerSocket、Socket套接字),编写一个带有图形用户界面的浏览器和 一个支持文档读取并返回给客户浏览器的web服务器。...
  • u011215133
  • u011215133
  • 2016年04月24日 23:47
  • 1722

分布式计算和并行计算的区别

周末抽空看了看分布式计算和并行计算方面的东西,主要是搞清楚了这两个东西的相似点和区别,随便记录几句。相似点很简单,都是为了实现比较复杂的任务,将大的任务分解成小的任务,在多台计算机上同时计算。麻烦的是...
  • qing_10
  • qing_10
  • 2016年06月13日 09:13
  • 702

浅谈人工智能

历史      各个文明中都有杰出的工匠发明了自动机器来代替人类劳动,早在春秋时期鲁班就发明了世界上第一个机器人,可在空中飞翔‘三日不下’;三国时期蜀汉的诸葛亮发明了‘木牛流马’来运送战备物资,称得上...
  • oba_gaga
  • oba_gaga
  • 2016年10月09日 20:57
  • 4210

浅谈分布式计算

什么是分布式计算 分布式计算是一门计算机科学,主要研究分布式系统。一个分布式系统包括若干通过网络互联的计算机。这些计算机互相配合以完成一个共同的目标(我们将这个共同的目标称为“项目”)。具体的过程是:...
  • sTeVes
  • sTeVes
  • 2014年04月03日 16:16
  • 494

分布式计算实践(C#)-2

因为是模拟和试验,很多地方我都没有做得很完善,能省则省了,因为我采用的是对等结构,这里讲一下计算节点的结构,一个计算接点包含三个基本的功能:1)外部任务请求管理:负责接收外部请求的计算任务,并根据客户...
  • hawksoft
  • hawksoft
  • 2013年05月31日 11:39
  • 2494
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:浅谈分布式计算的开发与实现(1)
举报原因:
原因补充:

(最多只允许输入30个字)