第一章大数据时代
1.新摩尔定律:每18个月全球新增信息量是计算机有史以来全部信息量总和。
2.大数据单位:
3.海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。
4.大数据时代:
价值密度低(Value)
快速(Velocity)
数据量大(Volume)
多样(Variety)
复杂度(Complexity)
5.云计算长定义:
云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。
短定义:
云计算是通过网络按需提供可动态伸缩的廉价计算服务。
6.云计算的7个特点:
超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价
7.云计算按服务类型大致分为三类:SaaS,PaaS,IaaS
8.云计算现状:AWS(EC2,S3),google(GFS,MapReduce,BigTable),微软Windows Azure
9.云计算实现机制
10.云计算压倒性的成本优势
第二章Google云计算
1.GFS 谷歌文件系统
系统架构
容错机制
Master容错
Chunk Server容错
系统管理技术:
2.MapReduce分布式数据处理
MapReduce还是google提出的一个软件架构,是一种处理海量数据的并行变成模式,用于大规模数据集的并行运算。Map映射,Reduce化简,都是从函数式变成和矢量变成借鉴来的、
编程模型:
分布式素琐服务Chubby
Chubby是Google设计的提供粗粒度锁服务的一个文件系统,它基于松耦合分布式系统,解决了分布的一致性问题。
分布式结构化数据表BigTable
BigTable有三部分组成:客户端程序库,一个主服务器,和多个子表服务器。
主服务器三个作用:分配新子表,子表服务器状态监控,子服务器之间的负载均衡。
第三章 Amazon云计算AWS
弹性计算云EC2,用于提供大小可调节的计算容量。
机器映像AMI
实例、
弹性块存储EBS—快照功能是它的特色功能之一
EBS存储卷适用于数据需要细粒度地频繁访问并持久保存的情形,适合作为文件系统或数据库的主存储。
简单存储服务S3
简单存储服务(Simple StorageServices,S3)构架在Dynamo之上,用于提供任意类型文件的临时或永久性存储。S3的总体设计目标是可靠、易用及低成本。
S3存储系统的基本结构,其中涉及两个基本概念:对象和桶
S3的安全机制:身份认证和访问控制列表(ACL)的双重机制。
S3三大类型用户:所有者,个人授权用户,组授权用户
非关系型数据库服务SimpleDB和DynamoDB
非关系型数据库主要存储结构化的数据,并未这些数据提供基本的数据库功能,AWS提供了非关系型数据库有SimpleDB和DynamoDB。
非关系型数据库与传统关系型数据库的区别:
数据模型,数据处理,接口层
SimpleDB
第四章 微软云计算windows Azure
Widnows Azure属于PaaS模式,包括四个部分:Windows Azure。SQL Azure,Windows Azure APPFabiric,Windows是AzureMarketplace.
WidnowsAzure是微软云计算核心云计算操作系统。
微软云关系数据库:SQL Azure
第五章:Hadoop2.0:主流开源云架构
Hadoop2.0 体系结构
公共组件Common
分布式文件系统HDFS
分布式操作系统Yarn
Hadoop2.0安全机制