案例分享：基于预训练大模型的AI自动标注

曼孚科技

于 2023-05-19 16:33:06 发布

阅读量1.8k

点赞数

文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/manfukeji/article/details/130768747

版权

预训练大模型如ChatGPT正改变AI应用格局，降低使用门槛，解决数据资源、算力和人才问题。在NLP和CV领域展现潜力，尤其在自动驾驶的AI自动标注中提高效率，降低成本。曼孚科技利用大模型进行自动标注，提升标注质量和速度，应对自动驾驶对高质数据的需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从自动化时代到智能化时代，人工智能潜在的价值规模迅速扩张。如何将潜在的应用价值落到现实场景是摆在一众AI企业面前亟待破解的难题。

数据资源场景单一且有限、算力资源存在上限且成本高企、高端人才稀缺等问题无一不在阻碍AI产业的规模化商业落地。

而伴随着以ChatGPT为代表的大模型应用热潮的兴起，预训练大模型为解决上述问题提供了一条现实可行的技术路径，成为一张AI企业都想抓在手中的奔向“新世界”的船票。

相较于过往技术路径，预训练大模型可以大幅降低企业使用AI技术的门槛与成本，使应用场景从“单点专用”拓展到“点线面协同”，从而挖掘数据在行业应用中潜在的巨大价值。

从NLP到CV

提及大模型，就绕不开当前火热的ChatGPT。这款去年11月30日正式上线的应用迅速掀起新一轮AI应用热潮，其背后采用的Transformer模型更是成为学术界与产业界关注的焦点。

据悉，GPT采用的为主流Transformer模型，该模型使用自注意力机制，在NLP上表现优于RNN（循环神经网络）。在NLP方面，Transformer模型的自注意力机制可以为输入序列中的任意位置提供上下文，模型因此可以一次性处理所有输入数据。相较于RNN一次只能处理一个单词的情况，Transformer模型处理速度更快，可以大幅减少训练时间，并能够在更大规模的数据集上进行训练。目前，基于Transformer的预训练语言模型已成为NLP领域的主流。

事实上，大模型除了在NLP领域大放异彩外，其还可以应用在CV计算机视觉领域。计算机视觉常见的各类场景诸如图像识别、目标检测、语义分割、三维视觉等，也可以应用注意力机制，CV大模型（也称“大规模预训练计算机视觉模型”）应运而生，比较著名的是谷歌大脑在2020年推出的视觉Transformer（ViT）。

目前CV大模型主要应用领域包括图像识别、图像处理、视觉理解、视觉感知等多个方向，具体应用案例诸如利用2D图像序列生成3D场景，并在点云中检测目标等等。不过相较于NLP领域，CV大模型目前尚处于初步探索阶段。