数据标注那些事

数据标注是AI学习的重要环节,涉及分类、画框等类型。通过清理和标注数据,机器学习模型得以训练和测试。常见标注类型包括分类、框选、面积和点标注,广泛应用于图像识别、自动驾驶等领域。数据标注过程包括标准制定、形式确定、工具选择以及产品质量设计,确保数据质量和标注效率。
摘要由CSDN通过智能技术生成

首先,什么是数据标注
先说什么是数据标注。数据标注有很多种类型,比如分类、画框、标注、标注等等,我们下面会详细讨论。
要理解数据标注,首先要明白AI其实是对人类认知功能的部分替代。回想一下我们是怎么学习的。比如我们学会认识苹果的时候,需要有人拿一个苹果给你,告诉你是苹果。然后,你遇到一个苹果之后,你不知道它叫“苹果”。
类比机器学习,我们应该教他认识一个苹果。如果你直接给它一个苹果的图片,它根本不知道是什么。我们首先要有一张标有“apple”字样的苹果图片,然后机器学习图片中的很多特性,再给机器任何一张苹果图片,它就能识别出来。
这里可以顺便提一下训练集和测试集的概念。训练集和测试集都是标记数据。我们以苹果为例。如果我们有1000张标有“Apple”的图片,那么我们可以取900张作为训练集,100张作为测试集。机器从苹果的900张图片中学习一个模型,然后我们识别出机器以前从未见过的剩余100张图片,就可以得到这个模型的精度。我们上学的时候,考试的内容总是和平时的作业不一样,只有这样才能检验学习的真实效果,所以不难理解为什么要分一个测试集。
我们知道机器学习可以分为监督学习和非监督学习。无监督学习的效果是不可控的,经常用于探索性实验。在实际产品应用中,通常使用监督学习。有监督的机器学习需要有标签的数据作为先前的经验。
在标记数据之前,我们必须清理数据,以获得符合我们要求的数据。清理数据包括删除无效数据,整理成正规格式等等。具体数据要求可与算法人员确认。
第二,几种常见的数据标注类型
1.分类标注:分类标注是我们常用的标注。一般从已建立的标签中选择与数据对应的标签,这是一个封闭集。如下图,一张图片可以有很多类别/标签:成人、女性、黄种人、长发等。对于单词&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值