TeaTalk·Online 大数据+云原生,再度风云起

来源:安防展览网

大数据技术发展到今天已经有十多年的时间,如今大数据技术已经从新兴前沿技术逐渐成熟成为普惠性技术。同时现今云原生技术又在如火如荼的发展,那么大数据技术,尤其是基于Hadoop开源生态的技术如何与云原生技术结合并迸发出火花,是人们关注的热点。这次分享主要讲解大数据云原生的关键技术,这里主要包括大数据组件容器化、计算存储分离、数据湖&湖仓一体方面:1、介绍移动云云原生大数据分析Lakehouse产品,这个是大数据与云原生结合的典型案例;2、对云原生大数据进行总结和展望

如今随着Kubernetes+Docker技术的出现和成熟,大数据组件能够更自然的和计算资源调度相结合,也逐渐成为主流的调度方案。2、存储方向在大数据和云计算的场景,存储都非常重要,并且都是需要基于分布式存储。分布式存储对数据可靠性的要求,需要数据通常3副本的冗余,而直接将大数据的存储映射到云上的分布式存储,往往会产生数据膨胀,一份原始数据产生3*3=9份真实数据,从而产生大量不必要的成本,而解决的方案通常是需要存算分离的方式。

大数据组件容器化带来的优势:

1、组件服务快速灵活部署:服务运行在容器镜像之中,隔离了服务对平台环境的依赖,部署快速,服务秒级启动能够方便支持多实例、多版本的需求。

2、资源管理,弹性伸缩,提升利用率:K8S管理集群资源,能够支持服务间资源隔离(yarn能做到运行计算任务之间隔离,但是无法与例如hbase这样服务进行隔离),同时各种业务(离线任务、在线服务、实时计算)之间混合部署。同时能够支持各种调度策略,支持纳管不同资源(不同规格服务器、GPU等特殊资源)。

3、更高效的自动化运维能力:Kubernetes 自身框架能够对服务可用性提供一定保证(例如服务pod挂掉、节点宕机等场景),同时可以通过自定义服务存活性探针来定义自动化运维的逻辑。与Prometheus或ELK等成熟生态集成。但是在大规模物理化部署场景里,容器化大数据平台也存在一定局限性。在平台层面的弹性伸缩提升有限。物理化部署环境里资源的供给取决于物理设备的到位,而部署Hadoop还是K8s并不能对快速集群扩容带来改变。同时集群规模越大,带来的性能损耗也会随之放大,另外因为引入K8S一层服务,在超大规模下稳定性方面也会带来挑战。

我们总结了一下各种不同服务运行到K8S中的不同方式,其中计算服务类组件可以比较自然的运行到K8S中。计算框架类服务需要要求框架本身对K8S的支持,而目前flink、spark等框架能够原生支持,而MapReduce、Tez框架并没有成熟的方案。对于一个同时需要支持不同计算框架的平台通常可以采用两种方案来支持:

1、资源统一管理,但是任务会经过K8S/Yarn两层调度,产生额外开销。

2、采用组件原生支持调度框架,但是需要预先划分好yarn和k8s两个资源池,资源池之间难以负载均衡。

存算分离核真正关心的问题在于:1、真正降低存储带来的成本(软硬件单位成本、适应不同性能需求下的成本、资源利用率/弹性伸缩带来的成本);2、与现有大数据平台体系融合(是否兼容当前接口协议、能否与现有存储良好并存、能否满足当前对性能和扩展性的需求)

实际上存算分离需要解决的是两个问题:

1、更高性价比的存储;2、数据统一访问方案

大数据场景提供一种更高性价比的存储,主流有两种方向:1、构造一种兼容HDFS的分布式存储,并通常设计会针对HDFS存在性能瓶颈(例如NN单点、小文件)进行优化,辅以通用的优化技术:缓存、SSD、EC、压缩等,往往可能还会采用软硬件一体的设计。2、接入现有低成本存储(通常是对象存储),这种方案实际是解决对象存储在大数据场景性能差的问题,这种方案在云上场景具有更大价值(成本更具有优势)。数据统一访问的价值在于,当引入新的存储(即使兼容HDFS)的时候能够尽可能对上层计算透明,减少用户感知和改造成本。同时统一数据访问往往可以结合小文件合并、冷热数据等优化。往往可以通过代理访问(RBF),缓存系统(Alluxio)等方案实现。

数据湖&湖仓一体数据湖或者湖仓一体也是近两年来非常热门的技术话题。我们总结数据平台整体的架构演进可以是从传统数仓(MPP)到传统数据湖(Hadoop)再到湖仓一体(Lakehouse)的过程。数据湖核心观点在于采用统一存储存放原始数据,支持各种格式(结构化、半结构化、非结构化)数据,并提供统一的数据分析处理能力。我们当前典型的Hadoop架构的大数据平台,本身就是一种数据湖,具备一定的数据湖特质,然而和我们谈论的湖仓还是有一些区别:1、当前底层存储单一,主要以HDFS为主,未来演进为支持多种介质,多种类型数据的统一存储系统。2、当前根据业务分多个集群,之间大量数据传输,未来演进到统一存储系统,降低集群间传输消耗;3、当前计算框架以MR/Spark为主,未来演进在数据湖上直接构建更多计算框架和应用场景。

数据湖和云数据仓库各自有其热门的产品:数据湖产品:亚马逊LakeFormation、阿里云DLA、华为云DLI、腾讯云DLC云数仓产品:亚马逊RedShift、阿里云MaxCompute、SnowFlake、ClickHouse我们认为数据湖和数据仓库总体是朝相同方向演进,但是侧重点有所不同:数据湖具有更好的灵活性,支持各种类型数据,适用于初创期企业需要快速灵活进行数据探索场景;云数仓具有更高性价比和更完备数据规范治理能力,适用于逐渐成熟快速成长型企业需要更高效处理大数据业务的场景。

另一方面技术的趋势是湖仓一体:一方面数据湖和数据仓库的生态更好的交互融合,湖能访问仓,仓能融入湖;另一方面数据湖和数据仓库产品能力相互延伸扩展,像仓一样使用湖,仓能扩展成湖。

云原生大数据分析Lakehouse云原生大数据分析Lakehouse是移动云自主研发的大数据平台类产品,融合了湖仓一体、存算分离、容器化等云原生关键技术,为客户提供一站式的大数据服务能力。Lakehouse的主要特征包括:

计算存储分离:我们计算基于K8S调度,存储支持HDFS和移动云对象存储EOS两种,并通过Alluxio进行缓存加速,计算存储分别计费,计算不足扩计算,存储不足扩存储。

Serverless:区别于传统资源类服务会按照使用的内存、cpu进行规格计费,Lakehouse对客户可以做到按实际使用的资源量进行计费,用户可以不必精细预估好需求资源,订购以后只有真正运行作业才会记录使用并收取费用,不用不收费。同时即使需要扩缩容规格,也是秒级完成。

All In SQL:传统大数据平台需要用户对大数据组件具备一定的开发能力,而Lakehouse采用通用的SQL作为交互的输入,用户只要会写SQL就能进行开发,像使用数据库一样开发大数据。

智能元数据:支持不同数据源元数据统一管理,同时具备元数据发现能力,对于存储在对象存储上无Schema的数据,能够自动爬取格式并转化为结构化数据。自动化工作减少大量ETL任务的繁琐配置。

总结与展望:1、传统Hadoop生态大数据技术已趋于成熟进入普惠期,云原生的技术能够在弹性伸缩、资源利用率提升、运维管理方面进行有效提升;2、基于K8S容器化提升弹性、结合云上对象存储降低成本是当前大数据云原生的主要趋势;3、云原生架构的LakeHouse能更好的利用云的资源提供大数据服务能力,并且会逐步降低大数据技术的使用门槛;4、私有化大数据和公有云大数据场景差异使得“云原生”并非解决所有问题的银弹,但整体发展趋势仍然趋于统一。

深度学习、机器学习、人工智能、迁移学习、嵌入式相关技术欢迎一起交流。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值