人工智能是怎么准备训练样本的

本文介绍了人工智能训练样本的准备过程,包括收集图片、图像标注的重要性。数据集的准确性和规模对模型效果至关重要,通常涉及爬虫收集、购买、合作方提供等方式。图像标注涉及到物体边框、类别标注,需要制定标注规则并进行质量管理。本文还提到了标注群体的选择、标注规则的确定以及标注工具的开发挑战。
摘要由CSDN通过智能技术生成

我是一个前端,机缘巧合加入了一家AI创业公司,一年多过去了,所幸公司没倒,我得到了一些参与AI模型开发的机会,我发现所谓的“AI”虽然很复杂,但并不神奇,是可以被理解、学习的。趁着最近有空,计划写些文章分享见闻吧。

神经网络是一种学习算法,也是目前最火的人工智能技术了。“网络”由许多“层”组成,每层是一个处理单元,作用是将输入值按该层逻辑转换为输出值。 如果说特征抽取是一个复杂的大任务,那么“层”就是将大任务拆解后形成的一个一个独立的、单一职责的小任务,比如有些层是将图像文件转换为RGB矩阵;有些层用于抽取图像的颜色特征;有些层专门用于降维,将输入压缩为特定大小的矩阵。每层都能在不同层面描述或者处理图像的某个片面信息,将这些层按 适当的规则 连接在一起后,就构成一个能描述图像完整信息的“网”。模型开发的主要任务就在于如何设计层,以及如何将层连接在一起上。原理就是这样,但实际的开发非常非常复杂。

神经网络包含前向传播与反向传播两个过程,前向是将输入,比如一张图片,从网络输入层开始经过各层迭代处理,输出特征值;反向则是将输出的特征值与样本预期特征值之间的误差反向传回各层,各层根据误差调整权重。“模型训练”就是将大量样本输入到网络,网络在不断前向、反向的过程中慢慢调整各层权重,使得最终结果能“大概率”满足样本需求的状态。这个状态我们可以理解为一大堆参数,参数与网络模型共同组成我们日常所说的“模型”。

什么是训练样本

所谓的训练数据,就是经过预处理(一般是人工标注)后,有相对稳妥、精确的特征描述的数据集,以“样本”形式参与模型开发工作。那么,对训练数据集一般会有这样一些要求:

  1. 尽量准确,但不排除也很难排除有异常噪音的情况。毕竟是人工标注的,很难说数据一定正确,一个优秀的算法工程师应该具备一定的噪音处理能力
  2. 样本足够大。样本越大,得到准确结果的概率也就越大,小量样本容易出现
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值