大数据平台架构

最新推荐文章于 2024-07-02 10:46:14 发布

天然玩家

最新推荐文章于 2024-07-02 10:46:14 发布

阅读量1.9k

点赞数 2

分类专栏： # 大数据ABC 文章标签：大数据 Hadoop Sqoop Spark

本文链接：https://blog.csdn.net/Xin_101/article/details/99436143

版权

大数据ABC 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1 大数据组件架构

大数据架构分为:数据采集,传输,存储,调度和处理这五个部分.其中任务定期执行和任务分配,分别使用Azkaban和Zookeeper，大数据平台整体架构如图1所示，由图1可知，大数据平台的基础是服务器（硬件），所有计算机相关的服务均是基于服务器（或主机），服务器是一切服务和数据的根本，用于存储、通信、提供服务等等，在服务器中部署数据存储服务，如MySQL、Hive等数据结构工具，在服务器中存储的数据是无“生命”的，当服务器存储了海量数据，并需要分析数据时，通过Hadoop构建大数据平台，使这些无“生命”的数据“复活”，然而，通过MySQL等工具存储的数据不能直接被Hadoop利用，需要利用如Sqoop、Kafka和Flume等数据传输工具将海量的数据传输到Hadoop的文件系统HDFS中，存储到HDFS中的数据经过HBASE和YRAN标准化数据，供分析随时调用，数据处理使用Spark和Flink，实现数据实时处理。当进行分布式部署大数据集群时，使用ZooKeeper维护集群，任务调度使用Azkaban完成。
在这里插入图片描述

图1 大数据架构

2 大数据工具架构

大数据工具及相关功能如图2所示。

在这里插入图片描述

图2 大数据工具

3 数据存储

数据类型
结构化数据:数据库数据.
半结构化数据:XML数据
非结构化数据:word,PDF,文本,媒体日志.
大数据相关操作:
数据采集,策展,存储, ,分享,传输,分析,展示.

3.1 Hadoop

Hadoop是Apache的大数据集处理的开源框架.Hadoop执行批量处理,并且只能以顺序方式访问数据,意味着必须搜索整个数据集,即使最简单的搜索任务,当处理结果在另一个庞大的数据集,也是按照顺序处理大数据集.

HDFS
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)基于GFS,并提供了一个设计在普通硬件上运行的分布式文件系统.

序号	特点
1	分布式存储和处理
2	Hadoop提供的命令接口与HDFS进行交互
3	内置服务器的名称节点和数据节点可检查集群状态
4	流式访问文件系统数据
5	提供文件权限和验证

HDFS与现有的分布式系统有许多相似之处,但HDFS高度容错并设计成部署在低成本的硬件上,提高了高吞吐量的应用数据访问,并适用于具有大数据集的应用程序.

3.2 HBase

HBase是基于HDFS的分布式面向列的数据库,是一个数据模型,可以提供快速随机访问海量结构化数据,该数据模型定义只能有列族,及键值对,一个表有多个列族及每一个列族可以有任意数量的列,后续列的值连续存储在磁盘上,表中的每个单元格都具有时间戳.用于解决Hadoop只能批量顺序处理数据,对随机读取速度慢的问题.

HBase模式

行	列族		列族		列族
	列1	列2	列1	列2	列1	列2
1
2
3

3.3 CarbonData

大数据高效存储格式解决方案.

序号	特点	描述
1	列式存储	高效的列式数据组织,区别于行存,可实现列剪裁和过滤下压,使OLAP查询性能更高
2	丰富的索引引擎	支持全局多维索引,文件索引,Min/Max,倒排索引等多种索引技术,从表级,文件级和列级多个层级快速定位数据,避免SQL-on-Hadoop引擎常见的"暴力扫描",从而大幅度提升性能
3	全局字典编码	包括常见的Delta,RLE和BitPacking等编码,应用全局字典编码来实现免解码计算,计算框架可以直接使用经过编码的数据来聚合,排序等计算
4	自适应类型转换	针对分析型应用中大量使用的数值类型(Double/Decimal/Numerical/BigInt)实现存储内数据类型转换,配合列式数据压缩,使压缩更加高效
5	标准SQL和API	在SparkSQL基础上,支持标准SQL99/2003,支持批量数据更新,删除,适用于OLAP场景下数据的周期性刷新,如拉链表更新,维表数据同步,提供JDBC/ODBC连接,支持BI工具无缝对接,兼容Spark DataFrame/DataSet
6	数据生态集成	支持与Hadoop,Spark等大数据生态集成,支持和商业BI工具无缝对接

3.4 TiDB

TiDB是开源的分布式NewSQL数据库,实现了自动的水平伸缩,强一致性的分布式事务,基于Raft算法的多副本复制等重要NewSQL特性,TiDB结合了RDMBS和NoSQL的优点,部署简单,在线弹性扩容和异步表结构变更不影响业务,真正异地多活及自动故障恢复保障数据安全,同时兼容MySQL协议,降低了迁移成本.