1.大数据
- 容量(volume)
- 速度(velocity)
- 数据多样性(variety of Big Data)
2.大数据的解决方法
- 充足的储存能力—虚拟化存储
- 高速度的计算平台—多核处理器,网络计算机,内存内计算
- 高新能的运算平台 —容错系统
- 处理各种数据的能力 —分布式计算
- 及时定制化信息传递 —移动设备,可视化范例,实时报警
关键技术:分布式与并行计算,Hadoop。
虚拟化:分区,隔离,封装
3.云计算
- IaaS—将硬件,存储和网络作为服务提供—eg:虚拟机,负载平衡器,网络附加存储
- PaaS—编写,运行程序—eg:Windows Azure 谷歌应用程序引擎(GAE)
- SaaS—IaaS,PaaS必须先运行起来,方能用。
4.并行计算技术
- 集群和网格
- 大规模并行处理(MPP)—eg:EMC Greenplum, ParAccel
- 高性能计算(HPC)
5.Spark
官方Spark: http://spark.apache.org/
入门简介:http://blog.jobbole.com/89446/
- 实现语言—Scala
- 整合了内存计算的基元
- SparkSQL—支持通过SQL或者Hive查询语言来查询数据
- Streaming—支持对流数据的实时处理
- MLlib—机器学习库
- Graphx—图处理