大数据并非是一大堆数据,而是一套可以对大量数据执行处理运算的框架(框架是库的组合,复杂系统的开发仅提供单个库是无法支持的,所以必须提供很多库)和一些工具软件的集合
一.大数据系统的定位
大数据系统并不是通过计算平台,它仅用于处理数据、分析数据,然后将结果用于其他业务逻辑,而业务逻辑(比如登录注册)是不可以通过大数据系统处理的。所以,大数据系统一般作为一套业务系统的一个组成部分,而不能独立构建业务系统。
二.与传统分布式系统的区别
- 大数据系统借助于普通计算机和普通网络就可以实现分布式计算,对硬件没有特殊要求,很平民化,而且软件都是开源的,任何人、任何公司都很容易组建出自己的大数据平台。
- 传统分布式系统需要昂贵的企业级硬件配合其软件系统,而且在扩展硬件时性能的提升比例也不如大数据
三.成功的大数据系统项目
Hadoop
- Hive
- HBase
- Spark
- Flink
- Flume