SAP 发布首个真实 ERP 数据集,推进企业人工智能研究

随着生成式人工智能在自然语言处理上的不断进步,其在企业应用中的潜力不断扩大。然而,将大型语言模型(LLMs)应用于结构化的表格数据(如企业运营中的关键数据)仍面临诸多挑战。主要原因之一是缺乏现实、高质量的企业表格数据集。而网络上丰富的文本数据并不适用于训练处理企业数据的AI模型。

为了填补这一空白,SAP 发布了首个真实的企业资源规划(ERP)系统数据集,名为 SALT(Sales Autocompletion Linked Business Tables)。该数据集基于真实客户ERP系统中的销售订单数据,已脱敏处理,并以结构化、多表关联的方式提供,现已在 Hugging Face 和 GitHub 上开放访问。SALT 的发布旨在为企业级AI模型的研究和评估提供真实世界的训练数据支持。

企业数据的获取难度较高,主要由于数据隐私、商业机密和结构复杂性等因素。一条销售订单往往涉及多个关联表(如客户、地址、产品等),数据类型多样(文本、数值、类别等),且分布极度不均。这些特点使得企业数据远比普通文本复杂,传统模型难以适应。

SAP 研究人员指出,SALT 的推出可以帮助缩小学术界与工业界之间在数据可用性上的差距,使研究者不再局限于“模拟数据”,而是能在真实企业环境下测试和改进模型。

ERP 系统管理企业核心业务,如财务、采购和销售,拥有大量结构化数据。SALT 数据集通过模拟真实客户与系统交互的数据,成为企业AI模型训练与评估的理想样本,可用于开发更强大的基础模型,推动企业自动化。

SAP 也计划未来发布更多数据集,涵盖不同客户和业务场景,进一步丰富模型预训练、适配与基准测试的基础。此外,SAP 鼓励与高校合作,通过开放数据促进更多科研成果的产生。

除了开放数据,SAP 还在开发名为 SAP Foundation Model 的企业级AI模型,专为处理结构化表格数据设计。这一模型可在无需大量额外训练数据的情况下直接应用于预测任务,并与 SAP 知识图谱结合使用,提升对企业数据语义关系的理解与建模能力。该模型的初步研究成果已通过 PORTAL 论文发布。

通过 SALT 和 SAP Foundation Model,SAP 希望打通AI技术在企业数据中的应用瓶颈,加快企业数据智能化转型进程。

原文:https://news.sap.com/2025/04/sap-salt-real-erp-dataset-enterprise-ai-research/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值