人工智能是怎么准备训练样本的

最新推荐文章于 2024-08-07 17:55:44 发布

weixin_34313182

最新推荐文章于 2024-08-07 17:55:44 发布

阅读量5.6k

点赞数

文章标签：人工智能爬虫 java

原文链接：https://juejin.im/post/5c1bb86ce51d455c627aac75

版权

本文介绍了人工智能训练样本的准备过程，包括收集图片、图像标注的重要性。数据集的准确性和规模对模型效果至关重要，通常涉及爬虫收集、购买、合作方提供等方式。图像标注涉及到物体边框、类别标注，需要制定标注规则并进行质量管理。本文还提到了标注群体的选择、标注规则的确定以及标注工具的开发挑战。

摘要由CSDN通过智能技术生成

我是一个前端，机缘巧合加入了一家AI创业公司，一年多过去了，所幸公司没倒，我得到了一些参与AI模型开发的机会，我发现所谓的“AI”虽然很复杂，但并不神奇，是可以被理解、学习的。趁着最近有空，计划写些文章分享见闻吧。

神经网络是一种学习算法，也是目前最火的人工智能技术了。“网络”由许多“层”组成，每层是一个处理单元，作用是将输入值按该层逻辑转换为输出值。如果说特征抽取是一个复杂的大任务，那么“层”就是将大任务拆解后形成的一个一个独立的、单一职责的小任务，比如有些层是将图像文件转换为RGB矩阵；有些层用于抽取图像的颜色特征；有些层专门用于降维，将输入压缩为特定大小的矩阵。每层都能在不同层面描述或者处理图像的某个片面信息，将这些层按 适当的规则 连接在一起后，就构成一个能描述图像完整信息的“网”。模型开发的主要任务就在于如何设计层，以及如何将层连接在一起上。原理就是这样，但实际的开发非常非常复杂。

神经网络包含前向传播与反向传播两个过程，前向是将输入，比如一张图片，从网络输入层开始经过各层迭代处理，输出特征值；反向则是将输出的特征值与样本预期特征值之间的误差反向传回各层，各层根据误差调整权重。“模型训练”就是将大量样本输入到网络，网络在不断前向、反向的过程中慢慢调整各层权重，使得最终结果能“大概率”满足样本需求的状态。这个状态我们可以理解为一大堆参数，参数与网络模型共同组成我们日常所说的“模型”。