概述
数据量越来越大,数据分析的实时性越来越强,数据结果的应用越来越广泛,大数据技术应运而生
大数据:大数据是收集、整理、处理大容量数据集,并从中获得结果的技术总称
大数据处理框架
处理框架:实际负责处理数据操作的一系列组件
常见框架
批处理框架:用于批量处理大数据集的处理框架,可对整个数据集进行操作。如Apache Hadoop
流处理框架:用于对随时进入系统的数据进行实时计算,是一种“无数据边界”的操作方式。如Apache Storm,Apache Samza
混合处理框架:一些大数据处理框架可同时处理批处理和流处理工作负载。如:Apache Spark,Apache Flink
hadoop介绍
简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储与分析计算问题。
广义上来说,Hadoop通常指一个更加广阔到概念——Hadoop生态圈
Hadoop是一个可靠,可扩展的分布式计算的开源软件,可以从单个服务器扩展到数千台计算机。集群中每台计算机都提供本地计算和存储
Hadoop把硬件故障认为常态,通过软件把控故障,在软件水平实现高可用
Hadoop是一个大数据处理框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集
大数据与HADoop
最新推荐文章于 2024-06-13 10:01:09 发布