数据集成框架(Apache InLong)

在这里插入图片描述

Apache InLong(应龙):一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。
InLong 能够方便业务快速构建基于流式的数据分析、建模和应用,广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域。InLong 项目最初由腾讯大数据团队捐献到 Apache 孵化器,并于 2022 年 6 月正式毕业成为 Apache 顶级项目。目前,InLong 正服务于上千个业务,其中高性能场景数据规模超百万亿条/天,高可靠场景数据规模超十万亿条/天。

一、核心特性

  1. 易用性:基于 SaaS 模式对外服务,用户只需要按主题发布和订阅数据即可完成数据的上报、传输和分发工作。
  2. 稳定性与可靠性:源于实际的线上系统,服务上十万亿级的高性能及上千亿级的高可靠数据流量,系统稳定可靠。
  3. 功能完善:支持各种类型的数据接入方式,多种不同类型的 MQ 集成,以及基于配置规则的实时数据 ETL 和数据分拣落地,并支持以可插拔方式扩展系统能力。
  4. 服务集成:支持统一的系统监控、告警,以及细粒度的数据指标呈现,对于管道的运行情况,以数据主题为核心的数据运营情况,汇总在统一的数据指标平台,并支持通过业务设置的告警信息进行异常告警提醒。
  5. 灵活扩展:全链条上的各个模块基于协议以可插拔方式组成服务,业务可根据自身需要进行组件替换和功能扩展。
    InLong 的架构包括标准架构和轻量化架构,标准架构包含 InLong Agent、Manager、MQ、Sort、Dashboard 等所有 InLong 组件,适合海量数据、大规模生产环境。轻量化架构则只包含 InLong Sort 一个组件,也可以搭配 Manager,Dashboard 一起使用,简单、灵活,只支持数据同步。
    InLong 支持的数据节点包括但不限于 Kafka、MySQL、Oracle、Hive、ClickHouse、Iceberg 等,能够满足不同数据源和数据目标的需求。此外,InLong 还提供了丰富的监控审计功能,包括全组件指标监控、全链路审计对账、用户管理和审批流管理等。
    InLong 的最新版本 主要完成了支持 SSH 安装 Agent、字段模板管理能力、支持配置离线同步任务、Agent 采集 PostgreSQL 等特性。这个版本进一步丰富并优化了 Agent 功能场景,增强了 Audit 数据度量的准确性,丰富了 Sort 的能力和适用场景,同时优化了 Apache InLong 运营、运维过程中遇到的一些问题和使用体验。

二、安全特性和措施

  1. 数据传输安全性:InLong 提供自动、安全、可靠和高性能的数据传输能力,确保数据在传输过程中的安全性。
  2. 端到端加密:虽然搜索结果中没有明确提到端到端加密,但作为一个数据集成框架,InLong 可能会支持或集成端到端加密技术,以保护数据在传输过程中不被未授权的第三方访问。
  3. 身份验证和权限控制:InLong 可能会提供身份验证机制和细粒度的权限控制,确保只有授权用户才能访问敏感数据。
  4. 数据审计和监控:InLong 支持统一的系统监控和告警服务,提供细粒度的指标来监控数据流和系统状态,帮助及时发现和响应潜在的安全威胁。
  5. 数据加密存储:InLong 支持将数据安全地存储在各种数据节点中,如 Hive、Iceberg、HBase 等,这些存储系统通常提供加密功能来保护数据。
  6. 安全漏洞修复:InLong 社区积极追踪和修复安全漏洞,如 CVE-2024-26579 反序列化漏洞,确保用户及时更新到最新版本以保护系统安全。
  7. 合规性:InLong 可能会遵循相关的数据保护法规和标准,如 GDPR,以确保数据处理活动的合规性。
  8. 安全配置和最佳实践:InLong 文档可能会提供安全配置指南和最佳实践,帮助用户正确配置系统以提高安全性。

三、组成部分

InLong 的架构包括标准架构和轻量化架构。标准架构包含 InLong Agent、Manager、MQ、Sort、Dashboard 等所有 InLong 组件,适合海量数据、大规模生产环境。轻量化架构则只包含 InLong Sort 一个组件,也可以搭配 Manager,Dashboard 一起使用,简单、灵活,适合小规模数据。
InLong 的主要模块包括:

  • inlong-agent:数据采集服务,包括文件采集、DB 采集等。
  • inlong-dataproxy:基于 Flume-ng 的 Proxy 组件,支持数据发送阻塞和落盘重发,能够将接收到的数据转发到不同 MQ(消息队列)。
  • inlong-tubemq:腾讯自研的消息队列服务,专注于大数据场景下海量数据的高性能存储和传输。
  • inlong-sort:对从不同的 MQ 消费到的数据进行 ETL 处理,然后汇聚并写入到各种存储系统,如 Hive、ClickHouse、HBase、Iceberg、Hudi 等。
  • inlong-manager:提供完整的数据服务管控能力,包括元数据、任务流、权限,OpenAPI 等。
  • inlong-dashboard:用于管理数据集成任务的前端页面,简化整个 InLong 管控平台的使用。
  • inlong-audit:对 InLong 系统的 Agent、DataProxy、Sort 模块的入流量、出流量进行实时审计对账。
    InLong 支持的数据节点包括但不限于 Kafka、MySQL、Oracle、Hive、ClickHouse、Iceberg 等,能够满足不同数据源和数据目标的需求。此外,InLong 还提供了丰富的监控审计功能,包括全组件指标监控、全链路审计对账、用户管理和审批流管理等。

四、优势

  1. 一站式服务:InLong 提供从数据采集到数据存储的全流程服务,包括数据接入、数据同步和数据订阅,简化了数据处理的过程 。
  2. 高性能处理:InLong 能够处理百万亿级的数据流,支持高吞吐量的数据传输,这对于大数据处理场景尤为重要 。
  3. 稳定性与可靠性:源于实际的线上系统,InLong 服务了上十万亿级的高性能及上千亿级的高可靠数据流量,显示出其稳定性和可靠性 。
  4. 灵活的数据接入:支持各种类型的数据接入方式,包括不同类型的消息队列(MQ)服务集成,以及实时数据ETL和数据分拣落地 。
  5. 可扩展性:InLong 的架构允许通过插件化的方式扩展系统能力,包括支持多种数据节点和存储系统,如Hive、ClickHouse、HBase、Iceberg、Hudi等 。
  6. 低成本运营:InLong TubeMQ 设计了独特的数据存储方案,性能优于Kafka,且单机容纳的Topic数和分区数更多,减少了维护成本 。
  7. 基于 Flink SQL 的 ETL:InLong Sort 支持基于 Apache Flink SQL 的 ETL 方案,提供了高可扩展性和灵活性,同时降低了开发成本 。

五、不足

  1. 社区成熟度:相比于一些更成熟的数据集成框架,InLong 可能在社区支持和文档完善度方面有待提升。
  2. 学习曲线:对于不熟悉InLong或其组件(如TubeMQ、DataProxy等)的用户来说,可能存在一定的学习曲线。
  3. 特定场景的优化:InLong 在某些特定场景下可能需要更多的定制化开发,以满足特定的业务需求。
  4. 与现有系统的集成:对于已经在使用其他数据集成框架的企业,迁移到InLong可能需要额外的集成工作和成本。

六、应用场景

InLong 广泛应用于多个行业领域,包括但不限于广告、支付、社交、游戏和人工智能等。

  1. 广告行业:InLong 可以用于实时处理广告点击流,为广告投放提供实时数据分析和用户行为反馈,从而优化广告策略和提高广告效果。
  2. 支付行业:在支付领域,InLong 能够处理大量的交易数据,确保数据的实时性和准确性,帮助企业进行风险控制和欺诈检测。
  3. 社交行业:InLong 可以集成社交网络中产生的海量数据,如用户行为、社交互动等,为社交分析和用户画像提供数据支持。
  4. 游戏行业:InLong 可以用于处理游戏中的实时数据,如玩家行为、游戏内交易等,帮助游戏开发者优化游戏体验和进行用户行为分析。
  5. 人工智能:InLong 可以为 AI 应用提供数据集成服务,支持机器学习模型的训练和推理过程中的数据流管理。
    InLong 的架构设计使其能够处理大规模数据流,同时保持高吞吐量和低延迟,这对于需要实时数据处理的场景尤为重要。此外,InLong 的灵活性和可扩展性也使其能够适应不同的业务需求和技术栈。
    总的来说,Apache InLong 在处理大规模数据集成方面表现出色,尤其适合需要高性能和高可靠性的场景。然而,对于已经在使用其他数据集成解决方案的用户,可能需要评估迁移的成本和收益。
  • 10
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值