1. 大数据与云计算的关系
大数据对于系统构架的需求:
大数据:
volume--海量计算与存储
velocity--快速计算、数据的快速传输
variety--灵活性
value--低成本
大数据系统的核心设计理念:
并行化、规模经济、虚拟化(抽象)
大数据系统的软硬件架构:
存储--存储虚拟化
网络--网络虚拟化 “云” 框架:Hadroop/Spark
计算--计算虚拟化
2. 云计算的定义:
作为服务通过互联网提供的应用程序;提供这些服务的,位于数据中心的硬件和系统软件
云:数据中心硬件与软件
公共云:即付即用,开放给大众使用
私有云:一个企业或组织内部的数据中心
公用计算:给人以无限资源的错觉,付多少钱就能用多少资源(就像水、电)
3. 云计算的商业模式:
按需服务:需要的时候付钱
资源池:所有的资源在一个池子里,你不用的时候就给别人用、实现动态的资源分配
可测量的服务:细碎、可测量,计算费用
4. 云计算的分类
软件即服务(SaaS):消费者使用提供商运行在云设施上的应用程序
平台即服务(PaaS):消费者将自己编写的程序部署在云基础设施上
基础设置即服务(IaaS):提供处理、存储、网络等计算资源
5. 并行化
CPU主频受到功耗、发热因素的限制,难以再提升,转向多核
硬件:同一时刻使用所有的门电路
软件:并行指令、并行线程、并行请求、并行数据
6. 规模经济
极端规模的并行化,统一管理:仓库规模计算机(WSC)
机器
... + 一系列的交换机 => 数据中心
机器
--------------- 互联网
机器
... + 一系列的交换机 => 数据中心
机器
7. 虚拟化
分区:打破一个大资源、分享
抽象:用一个指令集仿真另一个指令集、便于管理
资源池:聚合、动态分配
隔离:保护消费者隔离其他租客(多租户),安全(间接indirection)