hadoop生态技术分层次详解

Hadoop专业术语介绍
数据分类:
结构化数据(表格数据)
半结构化数据(json、xml、日志)
非结构化数据(视频、音频、文档)

数据处理分类:
联机事务处理OLTP(On-Line+Transaction+Processing),传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
联机分析处理OLAP(On-Line+Analytical+Processing),是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

大数据系统架构分类:
SQL-on-Hadoop分布式系统,将计算任务并发分散到多个计算节点上的计算,底层处理是MR程序。Hadoop架构优先考虑容错性(Partition Tolerance)。
MPP(Massively Parallel Processing大规模并行处理系统),分布式并行结构化数据库集群,设计目的是为了消除共享资源的使用,采用非共享架构(Shared Nothing)架构。各节点都包含自己的存储和计算功能,可以独立执行查询的一部分。最后,在内存里进行数据合并,并将结果返回客户端。MPP架构优先考虑一致性(Consistency)。

分布式CAP原理:
一致性(Consistency)可用性(Availability)容错性(Partition Tolerance)
在分布式系统的设计中,没有一种设计可以同时满足一致性,可用性,分区容错性3个特性。

大数据架构:
自下而上:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层

一、数据来源层:
1、结构化数据–关系型数据库
Oracle(ORDBMS-对象关系数据库系统)
-付费OLTP,面向企业级用户。
mysql(RDBMS-关系型数据库系统)
-开源OLTP,适合中小型企业和个人。
PostgreSQL(ORDBMS-对象关系数据库系统)
-OLAP领域里MPP数据引擎的始祖。

2、半/非结构化数据–非关系型数据库NoSQL(Not Only SQL)
键值对数据库
-redis(开源的基于内存的键值对存储系统,其主要被用作高性能缓存服务器使用,当然也可以作为消息中间件和Session共享等。不适合持久化太过频繁、数据量太大、数据访问频率低场景!)
文档数据库
-MongoDB(MongoDB是文档型数据库, 提供数据存储和管理服务。不支持事务性的系统,复杂的跨文档级联查询!)
-ElasticSearch(Elasticsearch是搜索服务, 提供数据检索服务。不适合作为数据管理者)
列族数据库
-HBase(开源的分布式、Key-Value、列式数据库,面向千万数据量、PB级海量数据的实时入库和快速随机访问。不支持事务、复杂关联场景!)
图形数据库
-Neo4j(高性能、面向对象的图形数据库,为存储和查询大规模图形数据而设计的。但是分布式不好做!)

二、数据传输层:
1、数据集成(SeaTunnel、DataX、Nifi、Sqoop、FlinkCDC)
2、日志收集(Flume)
3、消息队列(kafka)

三、数据存储层
大数据存储架构的构成:
DAS(direct attached storage 直连式存储),适用于数据量较小、对磁盘访问速度要求较高的场景。 -本地存储
NAS(network attached storage 网络附加存储),适用于文件服务器和多用户共享的场景,特别适合非结构化数据的存储和管理。 -对象存储
SAN(Storage Area Network 存储区域网络),适用于大规模部署和高性能要求的场景,如大型企业和数据中心的应用。 -分布式存储

1、HDFS(分布式文件存储系统)
2、HBase(开源的分布式、Key-Value、列式数据库,面向千万数据量、PB级海量数据的实时入库和快速随机访问。不支持事务、复杂关联场景!)
3、ClickHouse(OLAP里引入向量计算-vector,犹如俄罗斯AK47,开启MPP时代)
4、Doris(OLAP实时数仓)
5、OSS

四、资源管理层
1、YARN(分布式计算引擎)
2、K8S

五、数据计算层
1、Hive on MR/TEZ (百万-百亿级数据-离线数仓)
2、Spark
3、Flink

六、调度层
Zookeeper(分布式协调器)
Oozie
Azkaban
Dolpin sheduler

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值