一、大数据
大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据的5V特点(IBM提出):Volume(大量)、Vel ocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据分析是通过检查大量的数据来获取洞察力的过程。这些洞察力可以帮助企业更好地了解目标客户,优化运营,提高效率,并做出更明智的决策。
大数据的优势主要体现在两个方面:
1.系统性的研究:大数据可以帮助企业更好地了解目标客户,从而在医保行业削减开支,增加零售业的营业利润率,通过运营效率的提升带来资金节约等。
2.业务流程的变革:通过分析和跟踪表现和行为,大数据可以提高运动成绩,改善科研,改善执法,改进金融交易等。
二、Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed Fil e System,HDFS),提供了高吞吐量的数据访问,适合处理大规模数据集。
Hadoop的核心设计包括三个主要部分:
1. Hadoop Common:为其他Hadoop模块提供了一些通用功能和库。
2. Hadoop Distributed File System (HDFS):—个分布式文件系统,用于存储和处理大数据。
3.Hadoop MapReduce:一个编程模型,用于处理大规模数据集。它将计算任务拆分为多个子任务,并在一个分布式计算环境中并行执行这些子任务。
此外,Hadoop还包括Hadoop YARN,它是一个集群资源管理和任务调度框架,负责在集群上调度和管理应用程序。
Hadoop的主要优势在于其能够在廉价硬件上处理海量数据,并提供高容错性和高可扩展性。这使得Hadoop成为大数据处理和分析的流行选择。Hadoop广泛用于日志分析、数据挖掘、机器学习、推荐系统等领域。
需要注意的是,Hadoop主要侧重于批量数据处理,对于实时数据处理和交互式查询可能不是最佳选择。在这些场景下,其他技术如Apache Spark可能更合适。