hadoop、spark和k8s等大数据架构

最新推荐文章于 2024-04-29 11:02:15 发布

billyhhzh

最新推荐文章于 2024-04-29 11:02:15 发布

阅读量3.4k

点赞数 2

分类专栏：架构文章标签： big data hadoop spark 大数据 k8s

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/billyhhzh/article/details/121137863

版权

架构专栏收录该内容

7 篇文章 2 订阅

订阅专栏

首先谈谈大数据架构

五横：

数据采集层：既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。

数据处理层：根据数据处理场景要求不同，可以划分为HADOOP、MPP、流处理等等。

数据分析层：主要包含了分析引擎，比如数据挖掘、机器学习、深度学习

数据访问层：主要是实现读写分离，将偏向应用的查询等能力与计算能力剥离，包括实时查询、多维查询、常规查询等应用场景。

数据应用层：根据企业的特点不同划分不同类别的应用，比如针对运营商，对内有精准营销、客服投诉、基站分析等，对外有基于位置的客流、基于标签的广告应用等等。

一纵：

数据管理层：主要是实现数据的管理和运维，它横跨多层，实现统一管理。

然后谈谈 hadoop 和 spark

在这里插入图片描述

关键区别

hadoop是批处理工具，更擅长处理离线数据，而spark在内存中处理数据，可以是实时处理。

在这里插入图片描述

Hadoop基于大数据的批处理。这意味着数据会在一段时间内先存储下来，然后使用Hadoop进行处理。

在Spark中，处理可以实时进行。

Spark中的这种实时处理能力帮助我们解决实时分析问题。

除此之外，Spark能够比Hadoop MapReduce（ Hadoop处理框架）快100倍地进行批处理。

因此，目前Apache Spark是业界大数据处理的首选工具。

接着聊聊spark 和 k8s：

k8s全称kubernetes，k8s是为容器服务而生的一个可移植容器的编排管理工具，越来越多的公司正在拥抱k8s，并且当前k8s已经主导了云业务流程，推动了微服务架构等热门技术的普及和落地，正在如火如荼的发展。那么称霸容器领域的k8s究竟是有什么魔力呢？

从架构设计层面，我们关注的可用性，伸缩性都可以结合k8s得到很好的解决，如果你想使用微服务架构，搭配k8s，真的是完美，再从部署运维层面，服务部署，服务监控，应用扩容和故障处理，k8s都提供了很好的解决方案。

具体来说，主要包括以下几点：

服务发现与调度
负载均衡
服务自愈
服务弹性扩容
横向扩容
存储卷挂载

总而言之，k8s可以使我们应用的部署和运维更加方便。

Spark本身的设计更偏向使用静态的资源管理，虽然Spark也支持了类似Yarn等动态的资源管理器，但是这些资源管理并不是面向动态的云基础设施而设计的，在速度、成本、效率等领域缺乏解决方案。随着Kubernetes的快速发展，数据科学家们开始考虑是否可以用Kubernetes的弹性与面向云原生等特点与Spark进行结合。在Spark 2.3中，Resource Manager中添加了Kubernetes原生的支持。

意味着我们可以使用k8s对Spark进行管理了，而且能运用云的特性，很好的进行集群伸缩，降低我们的成本以及当运算资源不足时快速增加节点。

参考链接：大数据平台架构--学习笔记 - JackSun924 - 博客园

参考链接：hadoop组件---spark----全面了解spark以及与hadoop的区别_直到世界的尽头-CSDN博客_spark是hadoop的组件

参考链接：什么是K8S - 知乎

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
hadoop、spark和k8s等大数据架构

首先谈谈大数据架构五横：数据采集层：既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。数据处理层：根据数据处理场景要求不同，可以划分为HADOOP、MPP、流处理等等。数据分析层：主要包含了分析引擎，比如数据挖掘、机器学习、深度学习数据访问层：主要是实现读写分离，将偏向应用的查询等能力与计算能力剥离，包括实时查询、多维查询、常规查询等应用场景。数据应用层：根据企业的特点不同划分不同类别的应用，比如针对运营商，对内有精准营销、客服投诉、基站分析等，对外有基于位置的客流、基
复制链接

扫一扫

专栏目录

billyhhzh CSDN认证博客专家 CSDN认证企业博客

码龄17年

12: 原创

26万+: 周排名

62万+: 总排名

6万+: 访问

: 等级

397: 积分

10: 粉丝

17: 获赞

8: 评论

108: 收藏

私信

关注

热门文章

分类专栏

最新评论

ceph和minIO存储方案如何选择？
静夜的DD: 我不是博主哈。agpl要求使用了就要开源，关键在使用的定义上，我认为通过http访问minio并不算使用了代码
ceph和minIO存储方案如何选择？
Kesling: 博主，您好，Minio官网说明“不管你有没有修改MinIO，你都要遵循这个AGPL v3协议”，有点看不懂这个协议，想问下如果我们公司有个系统想采用minio作为对象存储服务，不需要修改minio，这个系统会对外销售，这样的话需要获取minio的授权吗？
ceph和minIO存储方案如何选择？
静夜的DD: 但是jdk客户端还是apache 2.0。所以不二次开发的话是没问题的
ceph和minIO存储方案如何选择？
你到底奶不奶我: minio已经不是apache license 2.0 了
ceph和minIO存储方案如何选择？
weixin_61056777: MinIO 使用 Apache v2.0 是多少年前的事了？现在使用的是 GNU AGPL v3 了解一下？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。