1·大数据的特点
数据量大:大数据的最显著特点就是数据量巨大,通常以TB、PB甚至EB为单位计量。这种海量数据需要使用大数据技术和工具进行存储、处理和分析。
数据类型多样:大数据不仅包括结构化数据(如数据库中的表格数据),还包括半结构化数据(如XML、JSON等格式)和非结构化数据(如文本、图像、音频、视频等)。多样的数据类型需要不同的处理方法和工具。
数据处理速度快:大数据往往以高速产生和传输,需要实时或近实时处理和分析。因此,大数据技术需要具备高速处理和实时计算的能力。
价值密度低:大数据中可能包含大量的噪音和无用信息,数据的价值密度相对较低。因此,需要通过数据清洗、筛选和挖掘来发现其中潜在的有价值信息。
数据来源多样:大数据来自各种来源,包括传感器、社交媒体、互联网、移动设备等。这些数据来源的多样性使得大数据具有更广泛的应用场景和更丰富的信息内容。
2·什么是HADOOP?
Hadoop是一个开源的分布式计算平台,用于存储和处理大规模数据集。它基于Google的MapReduce思想和Google File System(GFS)的概念,通过分布式存储和计算,实现对大数据的高效处理和分析。
3·体会
了解Hadoop后,我认识到Hadoop作为一个开源的分布式计算平台,对于处理大规模数据集具有重要的作用。它通过分布式存储和计算的方式,能够有效地处理海量数据,实现高可靠性和高性能的数据处理和分析。