1.大数据基础(上)_3.大数据处理技术

1.------------------------------------
主题:分布式计算的概念与大数据的关系


* Solutions for Managing Big Data:
- 充足的存储能力(使用容量大,成本低的虚拟存储) 
- 高速的运算平台(使用多个具有多核处理器 成本低的网络计算机以及内存内计算) 
- 高性能的运算平台(使用容错系统处理系统冗余和数据复制) 
- 处理各种数据的能力(使用分布式计算处理数据多样性以及实时数据) 
- 及时与定制化信息传递的能力(通过移动设备可视化范例和实时报警)
- 在这之中,分布式与并行计算以及Hadoop是其中的关键技术

* Hadoop介绍:
    Hadoop是一个在分布式计算的环境下用来处理大量结构化与非结构化数据集的开源的软件平台。
    Hadoop使用一个叫做MapReduce的机制将任务分配到网络中不同的系统内,然后将结果收集,并对结果进行合并或化简。这个简单的程序设计模型可以使用户在分布式系统中快速创建并运行应用程序。它通过机器高效 自动地分发数据。各计算机利用多个CPU内核进行并行计算,最终通过特定的工具,对数据进行分析 可视化和结果汇报等操作。
    Hadoop将大量的数据分解为较小可控的数据块,然后把它们分发到各个计算机中。
    Hadoop可以向储存相关数据的服务器发送一个作业代码来追踪数据的位置,一旦各个计算机完成了分布式计算的任务,数据会被收集起来组成一个综合的结果数据集。

* Why is Hadoop Popular?
第一,Hadoop会保存多份数据拷贝,以防服务器发生错误
第二,Hadoop可以按要求增加数据节点,所以Hadoop可以轻而易举地进行扩展 

* Summary:
- 公司需要特殊的技术对大数据进行处理,并有效地将之用于问题决策与流程的改善上面
- 公司通常需要充足的存储容量,高速以及高性能的计算平台,处理各种数据的能力
- 分布式计算是一个可以有效处理大量数据的系统,它是一个将多个计算设备连成一个网络,并把任务分发到各设备进行处理进而增加总体计算能力的方法
- 并行计算应用各个击破的概念,即使用多个处理单元将一个复杂的任务分成多个子任务,每个处理器独自对一个子任务进行处理
- Hadoop是一个在分布式计算的环境下用来处理大量结构化与非结构化数据集的开源的软件平台
- 在处理大量的数据时,Hadoop可以帮助解决数据存储与接入的双重挑战
- Hadoop将大量的数据分解为较小可控的数据块,然后把它们分发到各个计算机中。
- Hadoop通过一个叫做HDFS的机制,即Hadoop分布式文件系统对数据进行分发
- Hadoop使用MapReduce机制将任务分配到不同系统中并收集最终结果
- Hadoop可以对储存的数据进行追踪,它可以保存多份数据拷贝,以便从错误中进行恢复,并且它的花销也不大


2.------------------------------------
主题:虚拟化和云计算
* Hypervisor可以使虚拟化过程自动进行,这个软件可以帮助你对虚拟化环境进行管理,这来自于美国国家标准与技术研究所(NIST)
* 数据中心和云的区别:
数据中心指的是企业内部用来存储 处理与分发大量数据的网络计算机服务器. 可能部署在企业内部,也可能在外部, 另一方面云是指远程部署的互联网计算机,可以让其他公司用来对数据进行存储 处理与分发。 
根据NIST的定义,设施必须满足以下五个定义,才能称之为“云”,1。按需分配的服务,2。宽带网络连接,3资源池,4快速弹性,5计次服务或者按次收费模型。缺失其中任何一个特点,就不是一个“云”。


* Cloud Computing Stack
IaaS(Infrasttrcture as a Service)将硬件存储和网络作为服务提供, 这类例子有虚拟机/负载平衡器以及网络附加存储
PaaS(Platform as a Service)提供一个平台,用户 可以在上面编写或运行程序, PaaS的例子有Windows Azure和谷歌应用程序引擎(GAE),这里的平台指的是操作系统
SaaS(Software as a Service)是中间件服务与软件开发和部署工具
如果公司使用了私有的PaaS云服务,其程序员就可以根据需要创建并部署应用程序,最后SaaS提供了可以由任意地点接入的软件,然而,为了使SaaS工作, IaaS和PaaS必须已经先运转起来,公司可以选择何时何地以及如何使用这些服务

* Summary:
由于大数据关于容量 速度和种类的不确定性,使得我们的平台必须具有可扩展性, 因此,对于大数据系统的各层进行虚拟化,从网络到数据库,存储以及服务器, 可以使我们得到低延迟,效率高的系统 
将云计算和虚拟化与大数据结合使用,就可以在做任意时间 任意地点 建立一个指向可控可扩展计算资源共享池的连接


3.------------------------------------
* 大数据相关的技术:
- 分布式计算
- 并行计算
- 内存内计算 

* Apache Hadoop Ecosystem
Hadoop的核心由两部分组成 一个存储部分, 一个处理部分
Hadoop分布文件系统(HDFS),提供了大数据存储需要的基本架构和所需的服务
MapReduce是用于检索计算,分类 计数与过滤数据的部分,它通过执行控制机制可以对数据进行并行或分布式处理
尽管HDFS和MapReduce为满足大数据的核心要求提供了基本的架构和所需的服务,Hadoop生态系统中也需要,其他一些工具和技术,在实际中建立并管理目标导向的大数据应用
HBase是Hadoop生态系统中的数据库,它是一个利用HDFS作为永久存储的分布式的面向列的数据库,它可以使用所有的数据存储在表中,利用结构化数据进行随机存取
Hive是建立在Hadoop上的面向批处理的数据仓库架构,它可对结构化数据进行处理
Pig是一个交互式或者基于脚本的执行环境,它支持Pig Latin,即一种描述数据流的语言,设计它的目的是快速上手Hadoop,Pig执行环境有一个Hadoop模式,也叫MapReduce模式,在这里所有的脚本运行于一个Hadoop集群中
Sqoop是将非Hadoop数据,比如说MySQL转换成HDFS可以使用的形式并将数据载入HDFS的一款工具
Flume是一个用于将大量不同来源的数据转移到一个集中式数据库的分布式系统,Flume是一个可靠的系统,可以高效收集组合与移动数据
Ambari是一个基于网络的工具,用于对Apache Hadoop集群的供应,管理和监控,它还运行Hadoop HDFS/ Hadoop MapReduce Hive HCatalog HBase ZooKeeper Oozie Pig和Sqoop以及YARN, Ambari为观察集群健康状态提供了一个仪表盘


* Summary:
- 分布式系统是一系列相互连接的计算资源的集合,这些资源也叫作节点
- Hadoop是一个基于分布式计算的十分流行的开源平台,它是一个高可靠高带宽低成本的数据存储集群,可以简化机器之间相关文件的管理
- Apache Hadoop的核心有两部分, 一个存储部分和一个处理部分
- Hadoop分布式文件系统(HDFS)提供了大数据存储需要的基本架构和所需的服务
- MapReduce 是用于检索计算,分类 计数与过滤数据的部分
- Hadoop生态系统中还有其他一些工具和技术,在实际中建立管理目标导向的大数据应用,它们主要有:HBase,Hive,Oozie,Pig,Sqoop和Flume
- Cloudera ,Horton Works, Intel, Greenplum,MapR和AWS EMR是Hadoop的一些商业版本


--------------------------------------
20:36 2015/8/23
发布了14 篇原创文章 · 获赞 0 · 访问量 5885
展开阅读全文
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览