1.什么是大数据
- 指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。
2.大数据的特点
1.海量化:数据量从TB到PB级别
2.多样化:数据类型复杂,超过80%的数据是非结构化的
3.快速化:数据量在持续增加(两位数的年增长率)
数据的处理速度要求高
4.高价值:在海量多样数据的快速分析下能够发挥出更高的数据价值
3.大数据能做什么:
在海量数据背景下:
- 快速查询 - 全量查询
- 数据存储 - 量大,文件大
- 快速计算 - 对比传统方案
- 实时计算 - 最新数据
- 数据挖掘 - 新价值
RAID 基于硬件的数据备份机制
RAID0 磁盘使用率100%,硬件不做任何物理备份。
RAID1 磁盘使用率50%,两个硬件磁盘进行数据备份备份的比例是1:1。
海量数据快速查询
在海量数据的背景下,进行数据的快速查找,快速提取。(快速指查找或提取效率3秒内)
例如:每个用户查询上月手机流量记录或上月通话明细。都是在海量用户中查询某一个人的记录,三秒内出结果。
传统数据计算特点:
数据量小(基本单位是MB、GB)、
数据种类少(大都为结构化数据)、
增长速度慢