2023年3月14日,OpenAI发布了多模态大模型的最新版本GPT-4:文生视频大模型Sora,Sora通过采用更大规模的数据集进行训练,其推理能力超过了ChatGPT,已成为目前最成功、最受欢迎的大模型。
Sora的出现,打破了人们对AI技术复杂、使用门槛高的固有思维。虽然谷歌提出了比Sora高10倍参数量的大模型,且Sora的核心算法采用谷歌提出的Transformer架构,但是谷歌却败给了OpenAI。标贝科技分析数据集的数据规模、数据处理方式、用户数据-模型飞轮是Sora模型成功的关键。
1、庞大的AI训练数据集规模是Sora模型成功的基础
Sora训练的数据集主要包括网站、书籍、社交媒体平台等,80%以上的数据集来自GPT3使用的数据集。这些数据集包含大量的文本数据,用于自然语言处理等领域的研究和应用。
2、高效的数据处理方式是Sora模型脱颖而出的重要技术
Sora在基础技术方面并未有大的突破,主要是在数据清洗、人工标注反馈和整体系统工程化方面取得了进展,从而使其整体效果相比之前的系统取得了较大飞跃。OpenAI团队也表示他们采用了多项措施确保数据集的质量和准确性,尤其数据筛选、数据收集、工程化(千亿级token编码、人工标注)等起了关键作用。
3、爆发式的用户数据促进产品质量与用户规模形成飞轮效应保证的Sora模型的火爆
Sora的服务开放给公众,同时可收集海量、多样化的数据,抢得数据获取先机。几亿用户为Sora贡献数据,进一步训练和微调使得Sora更符合用户需求,吸引更多用户为其免费提供数据。由此模型的数据飞轮快速转动起来,用户数据质量越高,迭代模型效果越好。
通过以上分析,我们可以看出训练数据集在整个Sora诞生过程中所起到的作用,而随着通用大模型的持续火热,大规模、多样化数据集因模型的高参数、通用化需求也受到关注。
标贝科技通过市场发展调研发现,目前用户所需数据集的发展已呈现大规模、多样化、实时性等特点。
一是数据集规模因大模型等场景需求爆发式增长,例如:由OpenAI发布的GPT-3的需要1750亿参数,GPT-4需要10000亿参数;
二是多种场景化需求导致导致数据集数据类型呈现多样化,例如因机器翻译、文本分类需求出现了文本类数据集,因人脸识别、图像生成需求出现了图像类数据集;
三是高质量数据集实时性需求迫切,随着AR、自动驾驶等场景的出现,社交媒体、交通数据集的采集和处理需要更加及时的反馈,以实现实时分析和决策。
AI生成信息将是未来的发展趋势,作为底部数据支撑的数据集在未来很长的时间段内都是行业关注的焦点,数据集的规范化管理以及高质量数据集的存量消耗殆尽也是很多厂商焦虑的问题,标贝科技是早期进入AI数据服务领域厂商之一,在AI数据领域有着较为深厚的技术基础以及优质的数据储备量,为下游客户提供高质量的训练数据产品、高效率的训练数据定制服务及高水准的训练数据相关应用服务。