大数据技术架构

本文详细介绍了大数据技术架构,包括数据源、数据接入、数据处理、数据分析、数据应用、平台系统等核心部分,强调了资源管理、数传平台、调度平台等在大数据平台中的重要性,并探讨了各组件在实际工作中的应用场景和作用。
摘要由CSDN通过智能技术生成

1 技术架构矩阵

大数据技术栈虽然比较多,但可以抽象为输入(数据接入)--处理(数据处理、数据分析)--输出(数据应用)。工作角色分工,数据处理以数据仓库开发人员为主,数据分析以数据分析师为主,其他所有组件、系统、技术相关归为数据平台。

2 数据源

大数据的数据来源虽然多,但不杂。

mysql是业务主流数据库,支持整表同步和binlog实时同步。整表同步数据量大,一般是数仓T+1方式同步,保证数据一条不丢;还有做到H+2近实时同步。binlog通过canal收集发送到kafka,用于实时数仓计算。

kafka用于同步消息中间件,一般是mysql binlog和埋点日志数据。埋点日志数据量非常大,比如APP的所有曝光、点击行为数据,收集之后用于实时推荐系统,实时推荐模型交互推荐和用户最相关的列表内容。

除此之外,有人会问,是否还有日志文件数据,这些数据一般都会转化为kafka消息,kafka消息统一收集。但凡是json数据都可以转为字符串消息发送到kafka收集。

3 数据接入

数据接入这一层任务量非常大,离线方面,每个表每天0点都到同步数据中心。实时方面则根据消息格式自动生成入库表结构,一直运行。这里需要使用数传平台工具化配置提升效率。

mysql数据最终会落入hive表存储在hdfs上,按天生成hive表分区。对于近实时数据&

  • 27
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值