在之前的内容中讲过确立一个算法模型需要使用大量标注好的数据去训练机器让机器去学习其中的特征以达到“智能”的目的。而数据标注就是帮助机器去学习去认知数据中的特征。比如我们要让机器学习认知汽车,我们直接给机器一个汽车的图片它是无法识别的,我们必须对汽车图片进行标注打上标签注明“这是一个汽车”,当机器获得大量打上标签的汽车图片进行学习之后,我们再给机器一个汽车的图片,机器就能知道这是一个汽车了。
下面简单讲一下在算法模型中训练集,测试集,验证集的概念。比如我们有一批标注好的数据我们可以拿出60%作为训练集交给机器识别学习初步建立算法模型,再拿出20%的数据作为验证集验证机器识别的准确性对模型进行初步评估并根据识别结果调整模型参数重新建立模型。最后再拿出20%的数据作为测试集用来评估模最终模型的泛化能力,最终结果不能作为调参的依据。
我们还可以这样理解:
训练集-----------学生的课本;学生 根据课本里的内容来掌握知识。
验证集------------作业,通过作业可以知道 不同学生学习情况、进步的速 度快慢。
测试集-----------考试,考的题是平常都没有见过,考察学生举一反三的能力。
以上三种集的划分比例不是固定的,对于百万级别的数据集,我们可以采用98%/1%/1%的规则来划分数据集。
最早这些标注数据需要那些研究AI算法的工程师在实验室中完成,但是随着人工智能在商用场景的落地这些待标注的数据呈“指数型”增长,工程师们根本无力完成那么多数据,基于此一些专门的数据标注众包平台和数据标注公司应运而生,如百度众测,京东众智,数据堂,龙猫数据等。
×××发布的《新一代人工智能发展规划》显示,到2020年&#