大数据根基于互联网,数据仓库、数据挖掘、云计算等互联网技术的发展为大数据应用奠定基础。对于任何一个大数据的从业者或初接触者,或者都会有个共同的感触:大数据很有用!大数据该怎么用呢?
大数据平台:
是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。
既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。
大数据平台的功能:
1、容纳海量数据
利用计算机群集的存储和计算能力。不仅在性能上有所扩展,而且其处理传入的大量数据流的能力也相应提高。
2、速度快
结合列式数据库架构(相对于基于行的非并行处理传统数据库)和使用大规模并行处理技术,不仅能够大幅提高性能(通常约100到1000倍),还可以实现更低且更透明的定价机制。
3、兼容传统工具
确保平台已经过认证,可以兼容传统工具。
4、利用Hadoop
Hadoop已成为大数据领域中的主要平台。利用Hadoop作为用于持久性和轻