大数据综述

sinat_37138973

已于 2022-06-17 13:05:35 修改

阅读量1k

点赞数

分类专栏：大数据文章标签： hadoop hbase big data

于 2021-08-18 20:07:01 首次发布

本文链接：https://blog.csdn.net/sinat_37138973/article/details/119787611

版权

大数据专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Storm对比Spark Streaming

Flume对比Kafka

大数据概述

大数据生态圈：Hadoop生态圈，Spark生态圈

大数据的4V特性：

Variety 多样的数据类型、Velocity 快速的数据流转、Value 发现数据价值、Volume 海量数据规模

大数据涉及的技术

数据采集、数据存储、数据处理/分析/挖掘可视化

Google大数据技术

MapReduce（解决计算效率）、BigTable（解决读写速度）、GFS(解决存储容量)

数据计算类型

批处理计算

批处理计算只要解决针对大规模数据的批量处理，MapReduce是最具有代表性和影响力的大数据批处理技术，用于大规模数据集（1TB以上）的并行计算。Spark基于内存分布数据集，比MapReduce快很多。

流计算

流数据是指在时间分布和数量上无线的一系列动态数据集合体，数据的价值随着时间的流逝降低，因此需要采用实时计算的方式给出秒级响应。

图计算

许多大数据都是以大规模图或网络的形式呈现，如社交网路、传染病传播途径、交通事故对路网的影响。

Mapreduce作为单输入、两阶段、粗粒度数据并行的分布式计算框架，在表达多迭代、稀疏结构和细粒度数据时，力不从心。

大数据包括静态数据和动态数据（流数据），大数据计算包括批量计算和实时计算。

大数据技术板块

功能	框架
数据采集	●flume ●kafka ●logstash ●filebeat
数据存储	●redis ●mongdb ●hbase ●hdfs
数据查询	●hive ●impala ●elasticsearch ●kylin ●clickhouse
数据计算	实时计算(流式计算) ●storm ●spark streaming ●flink 离线计算 ●hadoop ●spark
数据传递转换	●Sqoop（主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递）

Lambda架构

从底层的数据源开始，通过Kafka、Flume等大数据组件，将各种各样的数据同步到大数据平台，然后分成两条线进行计算。一条线进入离线批量数据处理平台（Spark、Hive、MapReduce等），去计算T+1或者H+1的业务指标，这些指标需要T+1或者H+1才能看到；另外一条线是进入到实时数据处理平台（Flink、SparkStreaming等），去计算实时统计指标。

大数据框架对比

Hadoop对比Storm

●Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘；

Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。

●Hadoop M/R基于HDFS，需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等，效率较低。

Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据。

●两者面向的领域也不完全相同，一个是批量处理，基于任务调度的；另外一个是实时处理，基于流。

Hadoop对比Spark

Spark仅仅是计算框架，不包含存储，对比的应该是MapReduce。

●MapReduce和Spark的主要区别在于，MapReduce使用持久存储，而Spark使用弹性分布式数据集(RDDS)。

●MapReduce是批处理框架，而Spark支持流式。

●Spark易用性要好。

Storm对比Spark Streaming

Flume对比Kafka

●kafka和flume都是日志系统。kafka是分布式消息中间件，自带存储，提供push和pull存取数据功能。

●kafka做日志缓存应该是更为合适的，但是 flume的数据采集部分做的很好，可以定制很多数据源，减少开发量。所以比较流行flume+kafka模式，如果为了利用flume写hdfs的能力，也可以采用kafka+flume的方式。

●Flume 是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API.

Hadoop集群的5大管理工具

当你利用Hadoop进行大数据分析和处理时，首先你需要确保配置、部署和管理集群。这个即不容易也没有什么乐趣，但却受到了开发者们的钟爱。本文提供了5款工具帮助你实现。

Apache Ambari

Apache Ambari是对Hadoop进行监控、管理和生命周期管理的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari向Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服务。

Apache Mesos

Apache Mesos是集群管理器，可以让用户在同一时间同意集群上运行多个Hadoop任务或其他高性能应用。Twitter的开放源代码经理Chris Aniszczyk表示，Mesos可以在数以百计的设备上运行，并使其更容易执行工作。

Platform MapReduce

Platform MapReduce提供了企业级可管理性和可伸缩性、高资源利用率和可用性、操作便利性、多应用支持以及一个开放分布式系统架构，其中包括对于Hadoop分布式文件系统（HDFS）和Appistry Cloud IQ的即时支持，稍后还将支持更多的文件系统和平台，这将确保企业更加关注将MapReduce应用程序转移至生产环境中。

StackIQ Rocks+ Big Data

StackIQ Rock+ Big Data是一款Rocks的商业流通集群管理软件，该公司已加强支持Apache Hadoop。Rock+支持Apache、Cloudera、Hortonworks和MapR的分布，并且处理从裸机服务器来管理Hadoop集群配置的整个过程。

Zettaset Orchestrator

Zettaset Orchestrator是端到端的Hadoop管理产品，支持多个Hadoop的分布。Zettaset吹捧Orchestrator的基于UI的经验和MAAPS（管理、可用性、自动化、配置和安全）的处理能力。