揭秘!一文读懂数据策略在模型训练中的重要意义

编者按:

我们知道,当有了一个基础模型之后,可从两个维度来提高它的性能,一是以模型为中心的方法,即想尽各种办法提高算法设计的复杂度、技术含量等;二是以数据为中心的方法,通过数据增强、合成数据、主动学习等数据策略提高数据的质量,从而提升模型的效果。知名AI学者吴恩达发现,以数据为中心的方法比以模型为中心的方法能更多地提高模型性能。 2021年,他提出,过去十年,人工智能最大的转变是拥抱深度学习,未来十年,人工智能将从以模型为中心(Model-centric)转向以数据为中心(Data-centric)。吴恩达表示,AI = Data + Code,更好的AI=80%的数据+20%的模型。未来机器学习想要发展更快,应该做的不仅是改进算法,而是转向创造出一种更系统的方式来改进数据,将80%的工作用来准备数据,将重点从大数据转移到高质量数据。

获得高质量的数据是一个非常复杂的过程,涉及数据获取、数据标注、数据处理等多个环节,需要耗费大量的时间和人力成本。想要实现“从大数据转移到高质量数据”,就离不开数据策略的设计。OpenAI的ChatGPT就是通过精妙的数据策略——基于人类反馈的强化学习(RLHF),“一石激起千层浪”。(了解详情请点击《ChatGPT的成功,源自数据策略的精巧设计》)

本文详细介绍了星尘数据的数据策略案例与成果,以敏感句检测模型为例,深入解读了其中的数据策略“组合拳”,旨在帮助大家更好地理解“以数据为中心的AI”,了解如何运用数据策略,以最低的数据标注成本,动态实现“模型性能-数据集-标注规则”的同步提升。

一、难点

随着互联网技术的快速发展,网络上的内容呈现出爆炸式增长的趋势。一些用户在互联网上发布含有违法、违规的内容,比如暴力、色情、欺诈、骚扰等等,这些内容不仅会伤害他人、引发社会矛盾甚至犯罪,还会对互联网社区的秩序和公共安全带来威胁。因此,为了保障用户的合法权益,维护互联网社区的健康发展,以及满足政府法规的要求,各大互联网公司都需要进行内容审核,并通过AI技术实现更加准确、高效、自动化的审核流程。

敏感句是指可能会引起负面影响或招致不良后果的言论或话题,如涉及政治敏感话题、涉黄、涉暴、涉恐等内容,如下图:

敏感句检测是一种文本分类任务,需要通过机器学习模型来对敏感信息进行识别,实现文本内容实时监控和过滤,以保证内容和谐,被广泛应用于社交媒体、在线论坛和社区、金融保险、政府部门、舆情分析等。

以敏感句检测模型为例,传统的做法是获取一大批数据进行标注,通过监督学习的方式训练模型,然

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星尘数据Stardust

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值