什么是大数据?
大数据:指的是数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据
大数据的主要特点
-
海量化
数据量从TB到PB级别
-
多样化
数据类型复杂,超过80%的数据是非结构化的
-
快速化
数据量在持续增加(两位数的年增长率) 数据的处理速度要求高
-
高价值
在海量多样数据的快速分析下能够发挥出更高的数据价值
大数据能做什么?
海量数据背景下
快速查询 - 全量查询
数据存储 - 量大,文件大
快速计算 - 对比传统方案
实时计算 - 最新数据
数据挖掘 - 新价值
大数据所用到的技术
大数据服务器系统安装
系统硬盘(100%完全独立,不要存储业务数据)
物理磁盘做raid1(两个硬盘物理备份)
/boot 200M
/SWAP 内存的1-2被(大数据集群中要关闭)
/ 所有的空间
- 数据硬盘
优先不做raid 必须做raid时 物理磁盘做raid0
多块小的硬盘独立挂载(一个硬盘一个目录)
大数据技术为什么快
传统数据与大数据处理方式对比
扩展性来说