大数据计算(Big Data Computing) (一)简介

W_dyyy

已于 2022-03-04 19:41:41 修改

阅读量5.6k

点赞数

分类专栏：大数据计算文章标签： big data 大数据机器学习

于 2022-03-04 19:33:44 首次发布

本文链接：https://blog.csdn.net/qq_35455206/article/details/123282765

版权

大数据计算专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一简介

如今，人们以及机器所产生的的数据数量，种类，速度是前所未有的，这使得如何处理这些数据成为了一个问题。传统的计算范式无法在这样的数据规模下正常运行，所以我们需要找到新的方法来轻松的存储，管理，分析这些大数据，于是大数据计算这门学科也就应运而生了。

那么什么是大数据呢？

“大数据”是一个广泛流行的术语，用来描述专门为收集，储存，处理非常大或非常复杂的数据集而设计的方法和工具。除了我们常见的计算机科学问题(如：搜索，排序等)，大数据计算的应用主要集中在：使用先进的数据分析技术从大规模数据中提取知识，比如说机器学习。

对于大数据的现象我们可以用四个"V"来描述：

“Volume”：数据的量大(TB甚至是PB级别)

“Variety”：数据形式丰富(数据可以使结构化的也可以使非结构化的)

“Velocity”：数据产生速度快

“Veracity“”：用于驱动决策过程的数据可靠性

二单节点架构(Single Node Architecture)

上图是一个节点的结构。如果我们能将数据完整的全部导入主存中，那么我们将不会有任何的问题，但是实际生活中往往很难做到这一点。比如：Google 索引，Goole爬取了500万的网页，平均每个网页有大概100KB(只算HTML)，那么总大小为 $5*10^{7}*10^{5}=5*10^{12}$ bytes=5TB。这对于主存来说非常困难，而对于磁盘(disk)来说却很容易做到。但是磁盘与主存间的传输速度却很慢，主存与CPU之间的传输速度最高到25600MB/sec,磁盘到主存的传输速度一般在100到500 MB/sec，大概快两个数量级。要是这5TB数据全部用磁盘，那么我们要全部读取的话需要约14个小时，这就要半天时间了，我们甚至还没有对这些数据进行任何计算。

那么我们如何解决这个问题呢？

我们可以想到两种解决方案：

一：纵向扩展：买速度更快的磁盘

优点：操作非常简单

缺点：提升有物理限制，价格昂贵

二：横向扩展：买很多廉价磁盘，让他们并行运行

优点：灵活性高(提升门没有限制，只要加新磁盘就能提升)

缺点：为了让磁盘并行运行，需要额外开销

三集群架构(Cluster Architecture)

计算的架构基于横向扩展，每个group有16到64个单节点，这个group叫做：rack。每个cluster由许许多多rack组成，通过网络交换机进行节点间的交流

这个架构有三个问题需要被解决：

1 当遇到failure时保证可靠性：

如果说这个cluster里有N个node，每个node平均1000天会坏一次，那么它每天坏掉的概率是0.001，那么这个node每天正常运行的概率为0.999。那么如果我们有1000000个node，那么损坏的节点的个数的期望为1000。即使每个node每天损坏的概率很小，但当节点多起来的时候，node损坏却也成了一个频繁发生的事情

2 减小网络交流的瓶颈

从图中我们可以看到，无论是rack内还是rack间交换信息都是一件昂贵的事情。如果在1Gbps下传输10TB的数据，那么我们传完大概要一天时间。所以我们希望尽可能减少数据的传输。

3 简化分布式编程模型

分布式编程是一件非常复杂的事情，编程人员应该注重与如何解决任务而不是处理复杂的cluster架构

W_dyyy

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据计算(Big Data Computing) (一)简介

本系列是大数据计算课程总结，目的是介绍适用于跨计算机集群的大规模数据分析的编程模型和工具，并在标准框架(hadoop,sapark)的基础下开发大数据/机器学习解决方案
复制链接

扫一扫