在信息化和数字化迅猛发展的今天,人工智能和大数据已成为推动社会变革和技术进步的两大支柱。AI 技术通过自动化和智能化,为各行业提供了更高效、更精准的解决方案。而大数据则通过对大量数据的深入分析,揭示了隐藏的模式和趋势,帮助企业和组织做出更科学的决策。
可以说,在AI的驱动下,整个的数据管理解决方案进入了新的发展阶段,但同时也面临着诸多的挑战。例如,企业核心数据的安全、数据的标准化以及数据的治理等。在这一趋势下,整个行业最核心的转变是让企业从被动变为主动建设,看到更多的数字资产的价值。
“我们在跟云厂商,尤其像腾讯这样的技术方交流的过程中,看到了应用场景重要性。如何找到应用场景并且更好地去理解应用场景,很大程度上都是需要产业的配合。”沙利文大中华区合伙人兼董事总经理、头豹联合创始人兼CEO杨晓骋表示,当企业主动建设大数据管理的平台,双方才会站在一致的角度上思考如何把数据管理做得更好、做得更优。
沙利文大中华区合伙人兼董事总经理、头豹联合创始人兼CEO 杨晓骋
2024年12月5至7日,第13届TOP100全球软件案例研究峰会在北京顺利召开。大会汇集了众多行业领袖、技术专家和创新实践者,将涵盖大模型应用开发、AI时代的技术人成长、基础架构技术演进、数字化转型实践工具等多个热门领域,提供全面而深入的技术洞察,旨在分享和探讨软件研发领域的最新技术趋势、最佳实践和成功案例,其中腾讯云大数据在此次峰会中亮相,并举办了以《Data&AI:新一代大数据架构升级实战》为主题的分论坛,探讨 AI 时代数据智能平台的构建之道。
众所周知,在腾讯公司内部,从微信到游戏、QQ音乐、腾讯视频等各种大家耳熟能详的国民级应用,每日都产生着极其庞大的增量数据。这些海量数据的背后是腾讯在云上构建千万核级别的算力平台,以及投入的大量的大数据技术领域的研发资源,沉淀和积累的这些业界顶尖的技术能力。
纵观腾讯云大数据产品布局,腾讯云提供了从基础引擎到上层应用的全面的产品矩阵,涵盖从数据存储、数据分析、数据开发治理以及数据可视化的全链路解决方案。其中,既有云数据仓库 TCHouse、大数据平台 EMR、流计算 Oceanus、数据湖计算 DLC、数据检索服务 ES 等大数据分析和处理引擎,还有一站式数据集成开发治理平台 Wedata、腾讯云 BI 以及 大数据处理套件 TBDS,以强大的技术能力和深厚的技术积淀,腾讯云大数据服务着千行万业,不同应用场景都有落地,包括政务、金融、互联网、出行到教育、零售。
面向未来的下一代数据平台——TCHouse-X
依托于腾讯集团内部丰富的落地应用和深厚的技术积淀,2021 年腾讯云大数据团队基于业界领先的开源 OLAP 系统 ClickHouse 打造了企业级云数据仓库服务 TCHouse-C,致力于满足客户海量数据下的极速实时分析需求,截止目前已成为全球规模最大的 ClickHouse 云端托管版本之一。随着客户规模的不断扩展,2022 年腾讯云大数据团队发布了云数据仓库 TCHouse-P,充分兼容 PostgreSQL 开源生态。同年底,腾讯云基于 Apache Doris 打造了 云数据仓库 TCHouse-D,在多表关联和复杂查询场景上,TCHouse-D 性能表现全球领先。
腾讯云大数据基础产品中心总经理 程彬
在TOP100全球软件案例研究峰会上,腾讯云大数据基础产品中心总经理程彬宣布,正式发布全新产品 TCHouse-X!定位于一站式数据智能平台,TCHouse-X 采用云原生存算分离的架构,支持在一份数据的基础上运行在线分析、离线批处理、数据湖探索、机器学习&AI等多种业务负载,帮助企业高效构建多种数智化分析应用。
数据平台的发展历程
当我们回顾数据平台的发展历史时,我们不难发现,数据平台正在朝着一体化、智能化和实时化的方向发展。
在传统数仓时代,从数据源获取到的数据经过 ETL 处理,以天级乃至周级写入至传统数仓平台中,以支持管理决策。这一平台下痛点是十分明显的:由于传统数据仓库的拓展性不足、能够支持的数据体量非常有限,同时其昂贵的软硬件成本,充分限制了数据平台发挥更大的价值。
彼时,Hadoop 大数据平台的出现解决了海量数据增长的问题,作为一种开源的分布式存储和处理大规模数据的框架,Hadoop 平台具有良好的横向扩展性和高可靠性,能够有效地应对数据增长带来的挑战。然而 MapReduce 不适合低延迟数据访问的实时分析场景,并且业务对于数据查询分析的效率要求越来越高,因此以 Apache Doris、ClickHouse 以及 Apache Flink 为代表的极速实时数据仓库和流计算引擎开始时兴。
时至今日,大多企业往往采取了基于开源大数据组件的组装式数据平台 —— 其中有 Spark、Flink 等等的批处理引擎或者是流计算引擎来进行数据 ETL,有 HDFS、Hive 或者Iceberg、Hudi、Paimon 等等的数据湖系统进行海量数据的存储,在线分析场景还会引入 ClickHouse、Doris 等 OLAP 组件满足在线交互式分析的需求。
随着大数据组件的增多,数据平台架构愈加臃肿,数据开发冗长的链路导致时效性很难满足企业要求。开源大数据组件之间的元数据和数据没有彻底打通,导致了数据孤岛的存在。更为重要的是,一份数据、多处冗余存储、多条计算链路,带来了资源成本的居高不下,与企业降本增效的诉求相悖。
理想中的数据平台
在腾讯云大数据 TCHouse 技术负责人马文博看来,理想的数据平台包含以下核心要素:
●一体化:架构上支持在一份数据基础上运行流计算、批处理、实时分析等多种业务负载,并确保不同负载之间的资源隔离,以提高效率和灵活性;
●高性能:在多种分析负载上都具有极致性能,无论是在线场景的报表分析或交互式即席查询,或是海量数据下的离线处理,都具有极致的性能表现;
●灵活与弹性:借助云原生架构和人工智能技术,用户无需关心底层资源的管理,系统能够根据业务需求自动调整资源,实现智能伸缩,从而大幅降低运维工作;
●实时性:平台不仅要提供快速的数据分析能力,还要支持数据的高效写入、更新和实时计算,以满足对实时数据处理的需求,让数据随时随时就位、所见即所得;
●Data + AI:平台应利用AI技术降低用户的使用门槛,例如通过AI辅助的自动扩展、智能数据洞察等功能。同时,平台还应帮助用户加速从原始数据到AI模型的转化过程。
一站式数据智能平台 TCHouse-X 正式发布
为了帮助客户解决目前流、批、在线分析等多引擎组建的数据平台的复杂架构问题,腾讯云正式发布了一站式数据智能平台 TCHouse-X。
从功能来看,TCHouse-X能够提供一体化架构,提供高吞吐离线数据处理和低延时在线数据分析,支持多场景混合负载,简化数据链路,实现降本增效。
在灵活弹性方面,TCHouse-X提供分时弹性、自动弹性、Serverless等弹性策略,秒级快速调整资源,适应不断变化的需求,避免资源浪费。
腾讯云大数据 TCHouse 技术负责人 马文博
“我们认为所有的离线作业可以一次性按时按需分配使用,提供按实际使用资源计算。在线场景分两种情况:第一种情况是业务自己是可预知的,这种情况提供了让用户可以自定义的方式,预先定义好的规则进行弹性扩缩容,支持手动和定时自动的弹性策略;另一种是腾讯云提供智能预测的方式,根据AI模型去做时序的预测,自动规划处系统最合理的资源配比情况。”马文博透露,对于不可预知的工作负载突发并发的激增,TCHouse-X提供了按照并发的方式自动感知并发,按照并发规模进行自动的资源扩展。
在性能方面,TCHouse-X 的存储引擎、计算引擎以及查询优化器均为性能优化方面采取了多层次的策略:
首先,在优化器方面,TCHouse-X 同时实现了基于规则的优化和基于代价的优化,无论是简单的查询查询或是复杂的多表关联,TCHouse-X 均可以最高效的方式将复杂查询语句转化成物理执行计划、大幅提升查询性能,同时智能化的优化器也可以很大程度降低人工进行SQL调优的开销,真正做到开箱即用。
其次,在计算引擎方面,TCHouse-X 充分考虑了不同查询负载对于计算执行的需求,查询调度模块会自动根据不同的计算负载采用不同的调度方式,天生就是向量化和基于 Push 模型的 Pipeline 设计方案,无论面对在线分析或离线计算任务,都可以更充分利用多核CPU资源,大幅提升查询性能。
最后在存储方面,文件内部数据有序,提供丰富的统计信息和索引,同时提供不同文件合并的策略,目的是让数据更加全局的一致,减少数据的重叠,这些都是为了数据的优化。
据了解,在典型的在线分析场景(TPC-H 100G)和离线处理场景(TPC-DS 10T)中,TCHouse-X 的性能均优于Snowflake,在线分析场景性能优于Snowflake 50%,离线处理场景以Snowflake九分之一的资源成本跑出比Snowflake快20%的性能,综合性价比比Snowflake有10倍的提升。
在提升数据实效性方面,TCHouse-X采用了多种数据摄入方式,实时写入性能比Snowflake快5倍,确保了数据能够快速进入平台进行后续处理,同时,TCHouse-X可以实现从ODS层到DWD层到DWS层和ADS层的全场景处理,允许业务快速拉起虚拟计算集群对数据进行分析处理,这意味着数据可以在平台上快速流动,从原始数据获取、高吞吐数据处理到低延时分析结果,整体秒级可见。
在AI方面,TCHouse-X 可以实时监控与数据收集,为系统提供全面的运行视图。然后利用收集的数据进行全局调度,优化查询分配到最合适的节点,提高整体性能和资源利用率。最终基于模型预测当前或未来的最佳资源配比,自动调整集群资源,实现自动扩展(auto-scaling)和回缩,以适应工作负载的变化。
从系统架构来看,腾讯云TCHouse-X采用了分层解耦的设计:作为平台的“大脑”,服务层包括统一的认知和授权机制。在这一层中,集成了统一的优化器、查询调动器以及元数据存储,负责处理数据的逻辑和优化查询执行;计算层相当于平台的“肌肉”,拥有统一的执行引擎,并且对算子进行统一的内存管理,确保数据处理的高效性;存储层,TCHouse-X设计了不同模块分别应对高频数据更新和高性能数据查询的场景,并通过Compaction机制来解决小文件的合并提升查询性能。同时,TCHouse-X 支持开放式的存储格式,最终将数据存储在对象存储中,以极低的数据存储成本帮助客户降低成本。
腾讯云CDN作为一项全球性的服务,拥有3000个加速节点和超过200Tbps的带宽,为数百万业务提供访问加速服务。这样的业务体量积累了海量的运营数据和日志数据,对于CDN的商业决策至关重要。在未使用TCHouse-X之前,腾讯云CDN面临着资源闲置、大查询和小查询问题,以及数据不一致和资源争抢的问题。
使用TCHouse-X之后,腾讯云CDN的所有在线和离线业务都整合到了同一个平台上,有效支持了实时业务指标分析和准实时业务分析。TCHouse-X帮助客户处理的数据体量已经达到PB级别,节省50%的存储成本,同时在保持同等查询效率的情况下,计算资源的使用仅为之前的十分之一。此外,TCHouse-X 还帮助客户根据不同的虚拟数据仓库进行资源隔离,使得业务更加稳定。
新一代数据湖高性能引擎,释放数据价值
腾讯云在2022年推出的数据库计算DLC产品,为企业提供了高效构建云上湖仓架构的能力。DLC支持 Spark 和 Presto 两种引擎,同时提供大规模的湖存储、统一的元数据管理、智能数据表优化等能力,可以帮助企业极大降低湖仓架构的建设门槛和维护门槛,专注于价值的释放。
相比传统的离线数仓,现代湖仓架构对计算引擎也有了更高的要求:一方面,引擎需要更高的计算效率,比如AI场景下常常用到近一年或几年的数据进行训练,导致大数据引擎需要前置处理的数据量成倍数的增长;另一方面,随着AI科学家和更多业务探索用户的加入,传统的大数据架构对于Java的开发依赖也带来了更高的使用门槛。
“Spark以其灵活的编程模型、广泛的应用场景、高效的处理效率以及丰富的生态体系,成为了湖仓架构下应用最广泛的引擎之一。”腾讯云数据湖资深产品经理佟甄透露,腾讯云大数据基础产品每天都会有客户百万条的作业运行,目前在Spark作业上的CPU规模已远超像传统的MR等引擎,近两年也有很多泛互、教育、出行等行业客户完成了Hive架构往Spark架构的转型。
腾讯云数据湖资深产品经理 佟甄
Meson作为腾讯云大数据内部的一个高性能引擎项目,旨在通过软件、硬件等多层次优化,为计算引擎提供极致的性能提升,并通过腾讯云大数据产品,更便捷的赋能到客户生产业务。Meson Spark就是腾讯云数据湖产品推出的这样一款引擎,希望以引擎的高性能,结合湖生态的融合,以低廉的使用成本,及易于管理的产品能力,一同交付给客户,助力企业降本增效。
具体来看,腾讯云目前针对Meson Spark主要做了几个方面的优化:首先是向量化执行引擎,这是对传统Spark JVM架构的一个显著改进,向量化执行引擎能够更高效地利用现代CPU的SIMD等特性大幅提升join、agg、sort等算子的计算性能;Meson Spark的向量化执行引擎以非侵入性的方式集成到Spark框架中,对于暂不支持的算子或函数,也可以进行回退,返回至原生引擎执行;最后Meson Spark团队也在持续针对客户业务常用算子进行更高的完善度覆盖,如json fuction函数,cast函数等,以便在客户业务场景遇到的复杂数据类型的大任务,及一些写入场景能取得更好的性能表现。
其次,优化器一直是数据库以及大数据引擎非常重要的模块,基于客户在POC和云上运行的任务以及对TPC-DS等Benchmark的分析,Meson Spark团队在Spark优化器持续的探索更多的优化,比如join规则优化、agg下推、scan合并等,可以为客户任务带来更精简的扫描及参与计算的数据量、更优的算子选择,在部分客户迁移上云的真实任务场景下,能够观测到十倍或百倍以上的性能提升。
“作为数据湖引擎,Meson Spark在湖生态也有良好的兼容,并且可以享受到湖存储层优化带来的进一步性能提升。”佟甄举例补充说,例如与腾讯云对象存储的适配及优化,大幅提升了存算分离场景下数据扫描效率,并借助DLC在Iceberg上的数据组织优化、Local cache等能力进一步提升数据湖场景分析效率。“DLC年中发布的Meson Spark 3.2版本,TPCDS场景下整体性能可达社区版本的2.23倍。年底DLC对Meson Spark版本进行了升级,在高版本社区性能成倍提升的基础上,又一次取得了近2倍性能提升。”
除了在Spark内核上的极致优化之外,借助DLC灵活资源使用方式,还可以进一步降低用户资源使用成本。DLC提供了虚拟集群和Serverless两种计费模式,一些数仓开发、运维团队,需要一些常驻的算力,使用虚拟集群的包月+按量弹性模式,会比纯任务计费有更低的成本。一些产品、数据科学家团队不定时的探索式分析,则可以使serverless模式按需计费。
最后,在Spark作业持续健康稳定的运行方面,可以依赖DLC智能洞察能力进行高效的诊断及调优,DLC基于AI算法实现了Spark作业的智能洞察分析,帮助开发用户及时了解作业的查询输入输出、数据读写、CU资源消耗等多维根因并给出智能调优建议,帮助用户识别异常查询的同时可以高效调优,保障作业良性运转。
Meson Spark已于腾讯云DLC产品上线,极致的性能加上DLC灵活易用的使用方式、智能调优体验,是云原生湖仓架构中降本增效的新一代利器。
流式湖仓统一存储架构
近年来随着数字化的加速发展,企业对于数据的实时处理和分析的需求日益增加,从电商平台个性化推荐到金融机构实时风控的场景,实时分析已经成为提升业务创新,提升核心竞争力的要素。
当然,除了大数据的发展离线业务之外很多用户也有实时的需求。传统很多客户会使用Lambda搭建实时和离线数据分析的链路。Lambda链路是一个比较稳定的数据架构的处理链路,这种架构会让离线和实时都走单独的链路进行处理。
但随着客户业务数据的增多,Lambda架构的局限性也日益凸显:灵活性低、成本高以及对数据更新场景的支持不足等,这些都让企业的业务创新面临着巨大的挑战。
在大数据存储架构面临不断升级架构挑战的今天,腾讯云的流式湖仓统一存储架构无疑是一个具有创新性的解决方案。
腾讯云大数据流计算Oceanus高级产品经理 李哲
腾讯云流计算作为一款企业级的实时大数据平台,基于开源Flink引擎构建,提供一站式开发,无缝连接,延时等能力具有低延成本,安全稳定的企业级实时大数据平台。流计算可以帮助企业实时捕捉、处理、分析海量数据,可以实现业务决策快速响应,提升业务效率,发掘新的增长机会。这是腾讯运营大数据全景图,流计算oceanus主要是作为实时计算引擎为整个大数据提供实时分析能力。
“客户需要有一套新的架构,能够对实时和离线分析链路进行统一,并且尽可能降低实时分析的成本。”腾讯云大数据流计算高级产品经理李哲表示,为了实现整个离线和实时链路的统一,需要统一数据存储,这种存储需要同时满足两个需求:离线对于数据读取分析以及对写入的数据产生完整兼容的changelog。为此腾讯云推出了流式湖仓解决方案。
从整体架构来看,腾讯云流式湖仓采用LSM Tree存储引擎进行高效文件存储,满足高并发场景下的数据处理需求。另外,在写入数据的过程中,腾讯云流式湖仓通过数据合并等操作优化了写入效率,并提供对单行数据更新的能力,使用户能够更精准地进行数据管理变更,适应复杂的业务需求。
与此同时,腾讯云流式湖仓在数据更新过程中生成完整的changelog记录,反映数据在业务变更中的变更情况。这种生成的changelog为流处理作业提供基础支持,使后续的增量计算或实时流处理管理成为可能。
从具体的功能来看,腾讯云流式湖仓是基于开源的Iceberg构建的,提供了与Iceberg天然的兼容性。例如,在生成原数据时,腾讯云流式湖仓会生成两份元数据。一份是通过调用Iceberg的开源库写入的兼容数据,另一份是流式湖仓原生的原数据,Iceberg兼容的原数据与开源的Iceberg完全一致,可以完整支持Iceberg的主要功能;采用LSM Tree存储引擎进行高效文件存储,满足高并发场景下的数据处理需求;在写入数据的过程中,流式湖仓通过数据合并等操作优化了写入效率,并提供对单行数据更新的能力,使用户能够更精准地进行数据管理变更,适应复杂的业务需求;另外,湖仓原数据包含了一些结构、日志、逻辑日志的文件,这些是Iceberg原生不支持的内容,从而可以支持额外的性能优化和流读流写的场景。
在性能优化方面,通过CDC技术,腾讯云流式湖仓能够实时捕捉源数据库的变更,并将这些变更传输到目标系统,确保数据的一致性和实时性。同时,提供整库同步的能力,允许客户将整个数据库的数据高效迁移到流式湖仓中,这对于数据仓库迁移和数据集成场景尤为重要。
总体来看,腾讯云流式湖仓在CDC入湖场景下的性能优化提供了实时性、一致性、自动化和高效性,这些优势和价值使得它成为企业数据同步和实时数据处理的有力工具。
李哲还介绍到,腾讯云流式湖仓的方式可以广泛应用于非常多的行业和场景,包括但不限于PPT上展示的游戏、出行、教育、电商等领域,为企业提供灵活的数据写入与高效管理、多层数据复用与灵活查询等能力,实现统一存储,简化大数据管理与成本控制。
WeData——构建数据资产化“管道”
腾讯云的一站式数据开发治理平台WeData提供了全面的解决方案,以支持企业在数据构建和应用过程中实现降本增效和数据价值最大化。
在整个腾讯云大数据的体系当中,底层是各种各样的离线引擎,中间是数据工具平台层,主要有开发治理平台、数据应用平台和BI平台,WeData位于腾讯云大数据体系的中间层。
腾讯云大数据数据治理技术负责人 虎兴龙
从产品理念来讲。WeData主打的客户价值是企业的数据资产化,这里面有三个关键词:数据、知识和价值。WeData通过全域元数据集成帮助企业掌握自己的全局数据,通过智能开发、治理、建模能力让数据变成知识,通过数据服务编排、应用链接能力让知识产生价值。
“WeData助力数据资产化的思路其实是构建一个数据赋能业务的能力闭环,通过强大的数据集成作业开发能力,把业务信息集成到数仓里面来变成数据,再通过治理建模的手段,数据之间的组织关系、层次关系、逻辑关系、血缘关系变得清晰,形成知识,再将知识服务化,对接到业务系统里面赋能业务。”腾讯云大数据数据治理技术负责人虎兴龙表示。
WeData作为企业数据资产化的“管道”,核心能力主要有4个方面:一是必须要满足强大的数据集成能力,从异构的业务系统中把数据采集到数据仓库里;二是智能化、lowcode开发能力,高效构建数仓模型;三是通过智能化的数据作业编排能力、服务化能力对接到下游业务系统;四是全链路的数据资产治理、数据建模、数据资产评估体系。
数据架构是企业的数据骨架,总体来看,WeData能够让数据的“骨架”可持续、可迭代、可扩展:底层有从数据集成、开发、测试、发布、上线到隔离的全链路DataOps原子能力支撑;企业各项目、业务组织在各自的数据空间中构建针对特定业务的数据模型、数据服务;业务发布数据模型、数据服务到资产目录,帮助企业形成全域数据知识图谱,沉淀企业可信数据资产,这个数据知识图谱就是我们现在比较热的数据语义模型层(Semantic Layer);各业务可以在全域数据知识图谱中实现数据的查找、分享、查阅、订阅,进而构建各类数据应用,例如:统一搜索类应用(数据市场、模型市场、服务市场),扫描治理类应用(成本、安全、质量治理等),智能分析类应用(自助分析、ChatBI、notebook、电子表格),开发建模类应用(copilot、智能建模、依赖发现等)。
虎兴龙强调,现在数据治理和架构的概念名词很多,Datamesh、Datafabric、Semantic layer、Data Virtualization等等,但其实核心逻辑都是通过开发、治理、建模等手段形成统一数据知识层,在这个企业数据知识层上构建数据应用,赋能业务,WeData始终围绕这个核心在赋能企业。
WeData 已经服务数百家企业,涵盖能源、金融、互联网、制造、交通等各行业,虽然各行业有所不同,但Wedata始终开放原子能力,提供丰富的OpenAPI,可以方便的做到被集成。
未来,WeData会持续Data+AI一体化、智能化、数据治理方面大力投入,为企业打造高效、易用的一站式数据智能解决方案。
TBDS 新一代湖仓数据管理
腾讯云大数据TBDS资深产品经理谷龙透露,“TBDS新一代湖仓是对云上EMR、DLC、流计算、和TCHouse等能力的私有化输出,同时 TBDS湖仓 会结合私有化的业务特征做对系统架构和数据架构进行升级以及做一些新的特性的开发。”
TBDS湖仓有两种形态:一种是是经典的形态,存算一体架构;另一种是全新一代的湖仓产品的架构,基于Lakehouse架构打造的全场景湖仓大数据底座。
TBDS湖仓架构在产品应用体验上实现了全面的升级,提供了更轻、更快且更易用的服务,同时也提供了更加安全、可靠的产品能力,整个湖仓架构从入湖到存算和上层的开发作业做了全面的统一,新的架构与老的架构是完全兼容。同时也基于腾讯 TBDS 开放能力,可以为企业现在的大数据集群进行架构和能力的平滑升级。
腾讯云大数据TBDS资深产品经理谷龙
目前,TBDS在实际私有化规模交付的项目已经达到1000+。
不管是经典一体的模式,还是存算分离的模式,TBDS都进行了全面的安全可控升级:
●产品能力上已支持国密算法实现数据的透明加密,支持 IPV4&IPV6的双栈协议,支持腾讯自研的 KonaJDK在 JDK 层面对大数据组件的内存、编译缓存等进行优化,综合计算性能提升了10%以上;
●硬件兼容上已100%支持市面上核心的芯片和操作系统;
●同时也有自研的迁移工具做CDH\CDP等平台的可视化迁移,帮助企业从CDH等平台平滑迁移到TBDS,迁移后支持对原有架构的升级,以及多芯混布等异构架构的增强能力。
在大数据平台数据管理中解决的核心痛点主要还是数据孤岛、以及在数据孤岛下形成的数据授权和数据/文件治理问题,数据授权通过传统 Ranger 的方式存在大量重复授权、出错性高、管理复杂性大等问题,数据治理主要是指小文件以及孤儿文件的产生和治理问题。
谷龙表示,“TBDS MetaService 可以解决以上提到的核心痛点问题,MetaService支持异构集群的元数据统一管理,同时基于元数据能力,实现一次授权全局可用的能力,支持精细化权限控制,支持元数据的智能洞察能力,基于洞察结果进行作业和存储优化,治理效果可观测。”
当前业界实现统一元数据的的方案主要归纳为两种方式:包括自建元数据服务和通过Connector纳管其他数据源的元数据,TBDS的MetaService融合了以上两种方案,支持在不搬迁元数据的同时进行集群的统一元数据管理。
此外, MetaServer另一个核心的能力是对非结构文件的支持,AI时代,我们需要处理的数据种类会更加复杂,比如对图像、音频、视频、jason等半结构化数据进行处理,传统的 hms 并不具备这部分能力,TBDS Metaservice 通过 TBDS-FS可以在不改变底层存储架构的情况下,实现对hadoop、s3 协议、非结构文件存储系统的统一管理和访问。
MetaService 在整个TBDS湖仓架构中的作用是非常显著的,通过它才实现了对异构集群的统管,以及对上层引擎访问的统一,基于MetaService的能力,腾讯云TBDS为企业大数据平台的管理和运营以及数据治理带来更多的价值。
基于混元大模型的探索和思考
随着大模型和生成式 AI 的迅猛发展,数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性,使得商业智能(BI)迎来全面重塑,BI 在智能化、效率、体验的全面提升,有望极大推动数据消费的普及。
在腾讯大数据全额栈产品技术图的最上层是腾讯云BI。云BI作为大数据的“最后一公里”,也是大数据应用的重要一个环节。大数据体系加上机器学习平台进行深入地打通,为客户带来一站式的DATA+AI的解决方案,让私有化客户可以直接享受到腾讯大数据技术带来的持续演进。
腾讯云BI自2018年起开始建设,服务于腾讯内部产品,覆盖了从数据准备、数据建模到数据分析和数据应用的全流程BI能力。另外,腾讯云BI提供丰富的开放能力,通过OpenAPI或SDK将产品能力集成到用户的系统中,实现与用户系统的无缝结合。同时还可以提供公有云和私有化版本,满足不同企业的需求。对于数据敏感和安全要求高的企业,可以选择私有化版本部署在企业内部。
对于用户而言,可以在腾讯云BI平台上轻松完成从数据分析到数据建模以及可视化的全部流程,无需深入的技术支持。
腾讯云大数据应用产品中心技术负责人 王成林
“我们团队一直是做BI产品的,这几年也服务了很多行业的BI客户。正因为如此我们发现在实际的工作场景里面业务人员面临着这样一个困扰,他们中大多数是缺乏编写sql的能力,对技术也不了解,面对复杂报表配置以及逻辑计算任务,对于普通用户而言依旧需要很高的门槛。”腾讯云大数据应用产品中心技术负责人王成林表示,随着大模型技术迅速发展,越来越多的企业客户希望借助大模型提升分析效率。在这样的背景和需求下,腾讯云将大模型技术和BI进行深度融合,推出新一代智能化BI——ChatBI。
从ChatBI的产品形态和功能来看,用户可以通过手机小程序的输入框输入数据查询问题,ChatBI通过混元模型和后台服务快速呈现结果;支持多轮对话,能够关联用户的问题并进行深入分析;当用户输入关键词时,ChatBI会弹出相关词汇,帮助用户快速找到所需输入,加快查询速度。
此外,ChatBI支持移动端和PC端,适应不同用户的使用场景,ChatBI的架构示整体链路分三个模块:用户发起查询后,首先到达意图识别层,识别用户的查询意图;检索大模型需要的知识相关内容,模型关联知识和问答后返回后台服务;最底层是基于混云训练出的两个能力,包括NL2SQL(自然语言转数据库查询语言)和NL2DSL(自然语言转领域专有语言),完成自然语言到数据操作的转换能力。
从具体客户案例来看,某零售品牌的业务疯狂扩张,但同时面临的挑战也愈发凸显:业务需求多,但做数据分析的开发人员非常少,一个数据分析的需求要做排期,基本1-2周以上。
ChatBI可以快速响应业务需求,通过移动端和PC端的支持,使得数据分析需求能够快速得到响应,减少了因开发人员不足而导致的1-2周的排期时间。同时,对于新加入的门店店长,即使不太会用BI工具,ChatBI的自然语言交互方式也能让他们轻松进行数据分析,降低了使用门槛。
王成林透露,腾讯云计划明年Q1推出数据解读和推动波动归因的能力,当数据出来之后用大模型进行数据的提取,快速地对数据进行分析解读。另外,还会推出智能搭建的产品能力,这个是专为数据分析师做报表使用,可以很大地提升编辑制作报表的效率。