大数据计算(Big Data Computing) (一)简介

一 简介

如今,人们以及机器所产生的的数据数量,种类,速度是前所未有的,这使得如何处理这些数据成为了一个问题。传统的计算范式无法在这样的数据规模下正常运行,所以我们需要找到新的方法来轻松的存储,管理,分析这些大数据,于是大数据计算这门学科也就应运而生了。

那么什么是大数据呢?

“大数据”是一个广泛流行的术语,用来描述专门为收集,储存,处理非常大或非常复杂的数据集而设计的方法和工具。除了我们常见的计算机科学问题(如:搜索,排序等),大数据计算的应用主要集中在:使用先进的数据分析技术从大规模数据中提取知识,比如说机器学习。

对于大数据的现象我们可以用四个"V"来描述:

“Volume”:数据的量大(TB甚至是PB级别)

“Variety”:数据形式丰富(数据可以使结构化的也可以使非结构化的)

“Velocity”:数据产生速度快

“Veracity“”:用于驱动决策过程的数据可靠性

二 单节点架构(Single Node Architecture)

上图是一个节点的结构。如果我们能将数据完整的全部导入主存中,那么我们将不会有任何的问题,但是实际生活中往往很难做到这一点。比如:Google 索引,Goole爬取了500万的网页,平均每个网页有大概100KB(只算HTML),那么总大小为5*10^{7}*10^{5}=5*10^{12}bytes=5TB。这对于主存来说非常困难,而对于磁盘(disk)来说却很容易做到。但是磁盘与主存间的传输速度却很慢,主存与CPU之间的传输速度最高到25600MB/sec,磁盘到主存的传输速度一般在100到500 MB/sec,大概快两个数量级。要是这5TB数据全部用磁盘,那么我们要全部读取的话需要约14个小时,这就要半天时间了,我们甚至还没有对这些数据进行任何计算。

那么我们如何解决这个问题呢?

我们可以想到两种解决方案:

一:纵向扩展:买速度更快的磁盘

        优点:操作非常简单

        缺点:提升有物理限制,价格昂贵

二:横向扩展:买很多廉价磁盘,让他们并行运行

        优点:灵活性高(提升门没有限制,只要加新磁盘就能提升)

        缺点:为了让磁盘并行运行,需要额外开销

三 集群架构(Cluster Architecture)

 计算的架构基于横向扩展,每个group有16到64个单节点,这个group叫做:rack。每个cluster由许许多多rack组成,通过网络交换机进行节点间的交流

 这个架构有三个问题需要被解决:

1 当遇到failure时保证可靠性:

如果说这个cluster里有N个node,每个node平均1000天会坏一次,那么它每天坏掉的概率是0.001,那么这个node每天正常运行的概率为0.999。那么如果我们有1000000个node,那么损坏的节点的个数的期望为1000。即使每个node每天损坏的概率很小,但当节点多起来的时候,node损坏却也成了一个频繁发生的事情

2 减小网络交流的瓶颈

从图中我们可以看到,无论是rack内还是rack间交换信息都是一件昂贵的事情。如果在1Gbps下传输10TB的数据,那么我们传完大概要一天时间。所以我们希望尽可能减少数据的传输。

3 简化分布式编程模型

 分布式编程是一件非常复杂的事情,编程人员应该注重与如何解决任务而不是处理复杂的cluster架构

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值