注:本文是学习由清华大学徐葳老师教授的公开课大数据系统之云计算的笔记。
课程分为四部分:
云计算与大数据系统之间的关系
云计算的商业模式
云计算的核心技术----虚拟化
计算虚拟化
网络虚拟化
存储虚拟化
云计算技术案例分享
总结:
云计算的核心思想
性能:并行化
经济性:规模化、公有云
可管理:虚拟化
从云计算到大数据
-
虚拟化提供了硬件资源的抽象
-
用户看到了接口
-(虚拟)节点数据
-(虚拟)网络
-(虚拟)存储 -
仍然是许多独立的设备:需要分布式系统编程
-
如何提供一个易于编程的‘单一系统’感觉
-
分布式存储、计算框架
-
仅仅有云计算还是做不了大数据
hadoop大数据计算框架,你可以在写一个程序而不用关心它在多少台机器上跑。
什么是一个好的云计算系统?
让用户彻底忘记底层的硬件设施
什么是一个好的大数据系统?
让用户彻底忘记虚拟网络、虚拟节点、虚拟存储是怎么回事 。
云计算与大数据系统之间的关系
大数据对于系统架构的需求
显示的需求
海量的计算和存储
快速计算
隐式的需求
数据的快速传输
灵活性
低成本
如何满足这些需求?核心设计理念
并行化
规模经济
虚拟化(抽象)
大数据系统的软硬件架构
大数据与云计算<并行化>
为什么需要并行化?
先从摩尔定律来说,摩尔定律:半导体芯片上的晶体管密集度每18个月就会翻一翻
Joy定律:MIPS每年会翻一倍(1978-2006).MIPS:每秒钟运行多少指令,芯片性能不能提高性能了,因为芯片性能提高会导致功耗过大,到2010年就会达到太阳的温度一样,所以英特尔现在的芯片最大也就到2.几级,然后就开始做多核,并行化。
并行化在计算机的体现
WSC是用网络连接起来的计算和存储设备。
WSC的特点:
使用相对同质的硬件和系统软件平台
共享相同的系统管理
大多数应用程序、中间件、软件系统都是自主开发,二传统数据中心则由第三方软件主导
WSC运行相对小数目的超大型软件程序(或服务)
通用的资源管理架构增强