使用合成数据训练大模型的介绍和案例

开发成功的AI和机器学习模型通常需要大量高质量的数据,但是收集这样的数据并不容易。


因为很多AI/机器学习模型所解决的业务问题场景,都涉及到需要访问敏感的客户数据,比如说个人身份信息和健康信息等等。


首先是收集和使用敏感数据会引起隐私问题,也会容易受到信息泄露的影响。因此,很多法律条例都限制了个人数据的收集和使用,严重者还会予以罚款等处罚措施。


其次,有些类型的数据收集成本很高,或者数据非常罕见。例如,为自动驾驶汽车收集代表各种现实世界道路事件的数据,可能非常昂贵。再例如,银行欺诈是较为不常见的事件例子,收集足够的数据来开发ML模型从而预测欺诈性交易是非常有难度的。


然而,与收集大型数据集相比,生成合成数据的成本低廉,并且可以支持AI/深度学习模型或软件测试,并且不会损害客户隐私。


事实上,目前合成数据的量已经相当可观了,2020年,AI 生成的合成数据已经超过了真实数据,预计到 2030 年将进一步扩大。据估计,到2024年,60%用于开发 AI 和分析项目的数据将都是合成生成的。

8d5e1314a2d98f88e9855feda402c5ba.jpeg


什么是合成数据?


顾名思义,就是人工创造出来的数据,而不是由实际事件产生的数据。它通常是在算法的帮

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值