导读
跨境电商进入多模式并行阶段,海量数据增长下,数据技术栈面临重重考验,实时、全量兼得至关重要。
在跨境电商领域中,TiDB 得到了广泛的应用。本文作者李坤,PingCAP 中国出海事业部技术总监,分析了电商出海的现状与挑战,同时介绍了 TiDB 的产品能力,并结合实际案例介绍了对应的解决方案。
背景
近年来,随着国内电商行业发展见顶和国家政策的支持,出海电商成为一个快速发展的行业,2021 年虽然跨境电商经历了各类风险考验,但是在这些重重考验下我国跨境电商出口额达 1.44 万亿元,同比增长 24.5%,仍处于高速发展区间,显示出了我国出海电商发展的韧性和强大的动能。
在独立站、直播短视频、社交媒体的带动下,跨境电商 DTC 模式出现爆发式增长,为出海企业创造了全新链路,跨境电商进入多模式并行阶段,同时形成全新的跨境电商产业生态。
现状与挑战
跨境电商企业在业务扩张时通常会遇到海量数据增长的数据存储问题,技术栈也随之越来越复杂,包含数据库、ETL、分析引擎等;同时,出海业务通常分布在多个地区或国家,因此普遍比较青睐公有云、多云部署,以及全球部署;相较国内,由于能提供更高的效率,出海企业对 SaaS 服务的接受度也比较高。
在出海过程中,每个企业都会有对自身业务增长的预期,通常会从两方面考虑:第一,随着业务的增长,希望可以实现数据平滑扩展。数据库都是以单节点的(DBMS)为主要基础,常见的限制是当数据量增长达到容量瓶颈时,性能便会出现急剧下降;第二,随着业务的增长,希望可以持续进行数据分析。尤其是在电商行业,数据分析作用非常突出。虽然以数据湖和数仓为代表的技术栈可以承担更大数据量,但处理数据的延迟将其功能限制在离线分析,而无法用于实时分析场景。
TiDB 的定位恰好可以帮助企业跨越上述数据鸿沟。TiDB 是一个高度兼容 MySQL 的分布式数据库产品。在架构上,TiDB 采用了计算存储分离的典型架构,它为 TiDB 的长期演进带来了很多好处,如 serverless 架构演进,更好的资源管控等等。在计算部分,TiDB 提供了一个 SQL 的统一入口,它是无状态的服务,可以随时在线扩展;存储部分通过 Raft 使用通用型硬件实现多台节点横向部署,可以跨多节点实现高可用。当数据规模增长时,可以通过增加节点来扩展性能。用户不需要对表提前进行分区设计的划分,一切由 TiDB 内部独立完成。
TiDB 存储部分包含 TiKV 和 TiFlash 两个存储引擎,这也是 TiDB HTAP 主要能力所在。TiKV 是行存引擎,可以承担在线交易型业务,同时把数据实时同步给列存 TiFlash。列存由于能够拿到实时数据,可以进行高速分析,例如重型查询、大表之间的 join 等操作。TiKV 与 TiFlash 之间实现了物理隔离,不会互相干扰。
过去,当电商平台业务快速发展时,为了解决海量