什么是大数据?
大数据就是指那些规模巨大、类型多样、处理复杂的数据集合。
为什么要发展大数据?
传统的数据处理技术已经无法处理和分析这些数据量大,数据类型多样,数据来源分散,数据质量参差不齐的数据,因此需要新的技术来应对这个挑战。
大数据的核心是什么?
预测。大数据的本质是解决问题,核心价值在于预测。用海量数据通过数学算法的方式去预测未来某件事的概率。
大数据的核心特征又是什么?
大量,高速,多样,价值。
大数据的历史是怎样的?
起源,可以追溯到20世纪50年代和60年代,当时的美国政府和企业开始使用电子计算机处理数据。
发展,在21世纪初,互联网的普及和智能手机的发展。
第一阶段,主要的技术手段是分布式存储和处理技术。Hadoop是其中最著名的开源分布式存储和处理框架。它使用Hadoop分布式文件系统(HDFS)存储海量数据,并使用MapReduce处理数据。让数据在多个节点间分布式存储和处理,加快数据处理的速度和可靠性。
第二阶段,出现了更多的开源分布式存储和处理框架。如Spark,Storm。Spark是一种内存计算框架,使用RDD作为基本数据结构,具备快速的计算速度和高效的内存管理能力。Storm是一个实时数据处理框架,可以实时处理流式数据。
第三阶段,融合机器学习和人工智能技术。该阶段的主要技术手段包括深度学习,自然语言处理,图像处理等等,使得大数据处理更加智能化,自动化。