1.1大数据
- 大数据的定义:在一定时间范围内用常规软件工具进行捕捉、管理和处理数据集合。
- 经典案例:(1)啤酒与尿布
- 谷歌与流感
- 大数据的范围:采集、存储、搜索、共享、传输、分析和可视化。
- 内存:运行速度。
- 存储:储存容量。
- 海量数据产生:(1)来自大人群互联网
(2)来自大量传感器机械
(3)科学研究及行业多结构专业数据
- 1887—1890年:电功器
1994年:预见大数据
1997年:用大数据描述超级计算机产生的大量信息。
2003—2006年:谷歌提出大数据可重用方案。
2008年:提出大数据概念。
2009年:大数据逐渐走进互联网。
2012年:大数据成为一种新的资产类别。
2013年:大数据元年
- 1ZB=10亿TB
各数据量单位:KB>MB>GB>TB>PB>EB>ZB>YB>NB>DB
单位以PB衡量的数据可称为大数据。
1字节(8位)→1个英文字母或二进制8位数
1文字=2字节=16位
1.2第四范式
实验(第一范式)→理论(第二范式)→计算(第三范式)→数据(第四范式)
存储量大
大量化
增量大
来源多 搜索引擎
- 大数据的特征 多样化 社交网络
格式多 结构化数据
非结构化数据
快速化
有价值
- 企业推动大数据
1.3大数据的关键技术
一.大数据预处理技术:数据采集 数据存取 基础架构支持 计算结果展示
二.大数据存储技术:储存设备能持久可靠的的存储数据 提供可伸缩接口 提供高效查询,更新等操作
三.大数据分析技术:数据处理 统计和分析 数据挖掘 模型预测
1.4大数据的典型计算架构
Haddop(处理本地数据)Spark(收集并更新)Storm(延迟毫秒级)
云计算概述:无处不在的云计算比如电子日历,电子导航,钉钉等
什么是云计算?像水,电,煤(资源性产品)一样利用你的it资源(计算机储存网络资源)
关键词:按需使用,超大规模,高弹性
定义:指按需使用it资源和应用程序,通过互联网按使用量付费。
四种云:
- 公有云:提供公共的it资源 缺点:保密性低
- 私有云:提供给政府,学校等地 优点:保密性高
- 社区云:研究人员使用
- 混合云:包含以上任意两种
生活中的例子:
- 出行论:自己买车开车(混合云)
- 吃饭论:餐厅(公有云)在家做饭(私有云)
- 酒店论:酒店(公有云)家(私有云)
2.1云计算的基本特征
- 资源无限量供应
- 提供自助式服务
- 远程提供服务
- 资源可控
- 按使用量付费
2.2云计算的发展背景
1.20世纪60年代,计算机革命
2.20世纪90年代,互联网革命