大数据技术系列:图解【大数据平台开发】

导言

在前面的文章《「大数据技术体系」学习实践导览》中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据知识体系的抛砖引玉。
~~
今天想以自身的经历和实践经验,分享一下大数据平台的技术生态、开发管理与应用架构。为求简明扼要,内容主要以图示概览为主,对于其中更多概念在此不进行详解,因为这决然不是几篇文章的事,过程和附录会给出一些学习建议。

大数据平台的技术生态

在这里插入图片描述

可以看到

  • 首先在企业内确定要进行采集的数据源,包括关系数据库存储的结构化数据;以服务端日志、用户端行为埋点和IOT上报数据为主的半结构化数据;文档、图片、视频和音频等非结构化数据。
  • 通过离线采集工具(如Sqoop采集关系数据库数据……)、实时采集工具(如Flume采集日志数据……)、数据库增量采集工具(Canal……)采集上述数据源,kafka可以作为实时采集(增量采集)的消息队列服务。
  • 将离线数据存储至分布式文件系统HDFS,应用于离线数仓服务;将实时数据存储至Kafka,应用于实时数仓服务。
  • 使用MapReduce(基于硬盘读写,目前已经很少用
  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值