揭秘！一文读懂数据策略在模型训练中的重要意义

最新推荐文章于 2024-06-05 14:18:06 发布

星尘数据Stardust

最新推荐文章于 2024-06-05 14:18:06 发布

阅读量578

点赞数

文章标签：人工智能机器学习数据分析 Powered by 金山文档

本文链接：https://blog.csdn.net/Stardust_ai/article/details/129707285

版权

编者按：

我们知道，当有了一个基础模型之后，可从两个维度来提高它的性能，一是以模型为中心的方法，即想尽各种办法提高算法设计的复杂度、技术含量等；二是以数据为中心的方法，通过数据增强、合成数据、主动学习等数据策略提高数据的质量，从而提升模型的效果。知名AI学者吴恩达发现，以数据为中心的方法比以模型为中心的方法能更多地提高模型性能。 2021年，他提出，过去十年，人工智能最大的转变是拥抱深度学习，未来十年，人工智能将从以模型为中心（Model-centric）转向以数据为中心（Data-centric）。吴恩达表示，AI = Data + Code，更好的AI=80%的数据+20%的模型。未来机器学习想要发展更快，应该做的不仅是改进算法，而是转向创造出一种更系统的方式来改进数据，将80%的工作用来准备数据，将重点从大数据转移到高质量数据。

获得高质量的数据是一个非常复杂的过程，涉及数据获取、数据标注、数据处理等多个环节，需要耗费大量的时间和人力成本。想要实现“从大数据转移到高质量数据”，就离不开数据策略的设计。OpenAI的ChatGPT就是通过精妙的数据策略——基于人类反馈的强化学习（RLHF），“一石激起千层浪”。（了解详情请点击《ChatGPT的成功，源自数据策略的精巧设计》）

本文详细介绍了星尘数据的数据策略案例与成果，以敏感句检测模型为例，深入解读了其中的数据策略“组合拳”，旨在帮助大家更好地理解“以数据为中心的AI”，了解如何运用数据策略，以最低的数据标注成本，动态实现“模型性能-数据集-标注规则”的同步提升。

一、难点

随着互联网技术的快速发展，网络上的内容呈现出爆炸式增长的趋势。一些用户在互联网上发布含有违法、违规的内容，比如暴力、色情、欺诈、骚扰等等，这些内容不仅会伤害他人、引发社会矛盾甚至犯罪，还会对互联网社区的秩序和公共安全带来威胁。因此，为了保障用户的合法权益，维护互联网社区的健康发展，以及满足政府法规的要求，各大互联网公司都需要进行内容审核，并通过AI技术实现更加准确、高效、自动化的审核流程。

敏感句是指可能会引起负面影响或招致不良后果的言论或话题，如涉及政治敏感话题、涉黄、涉暴、涉恐等内容，如下图：

敏感句检测是一种文本分类任务，需要通过机器学习模型来对敏感信息进行识别，实现文本内容实时监控和过滤，以保证内容和谐，被广泛应用于社交媒体、在线论坛和社区、金融保险、政府部门、舆情分析等。

以敏感句检测模型为例，传统的做法是获取一大批数据进行标注，通过监督学习的方式训练模型，然

最低0.47元/天解锁文章

星尘数据Stardust

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
揭秘！一文读懂数据策略在模型训练中的重要意义

本文详细介绍了星尘数据的数据策略案例与成果，以敏感句检测模型为例，深入解读了其中的数据策略“组合拳”，旨在帮助大家更好地理解“以数据为中心的AI”，了解如何运用数据策略，以最低的数据标注成本，动态实现“模型性能-数据集-标注规则”的同步提升。
复制链接

扫一扫