ai训练样本大小_制造业AI困境：如何攻克“小数据”问题？

最新推荐文章于 2023-02-24 21:14:56 发布

衡谨卧石

最新推荐文章于 2023-02-24 21:14:56 发布

阅读量235

点赞数

文章标签： ai训练样本大小

本文链接：https://blog.csdn.net/weixin_29438011/article/details/112335646

版权

制造业面临AI训练数据不足的挑战，尤其在产品质检方面。文章提出了解决小数据问题的多种方法，包括人工数据合成、迁移学习、自监督学习、小样本学习、单样本学习、异常检测和知识硬编码。这些技术结合人机回圈，即使在样本数量极低（如10个）的情况下，也能构建有效的视觉检测模型，降低项目成本和研发时间。

摘要由CSDN通过智能技术生成

大数据文摘出品

来源：industryweek

编译：LYLM、楚阳

AI对互联网产业的变革已经不言而喻，那传统制造业又能获利多少呢？

事实上，许多制造商已经开始将AI解决方案集成到生产线上，但数据稀缺成了最大的挑战。

与可获取海量用户数据的面向消费者的互联网公司不同，在制造业中收集大规模的训练集几乎是不可能的事。

例如，在汽车制造业中，由于精益6-sigma管理技术的广泛应用，大多数零件制造商和一级供应商都尽量保证每百万批次的产品中最多出现4 个不合格产品。于是，制造商们就缺少了不合格产品的样本数据，从而很难训练出性能良好的用于产品质检的视觉检测模型。

最近一次的MAPI调查显示：58%的研究对象认为，部署AI解决方案最主要的困难是数据源的缺乏。

如何解决小数据问题

大数据使面向消费者的互联网公司能够高效利用AI。制造业是否能通过小数据来实现性能优越的AI系统呢？实际上，人工智能的最新进展正在促使这一想法成真。制造商可以通过下面的技术避开小数据问题，从而在训练数据稀缺的情况下实现AI项目：

人工数据合成

人工数据合成的方法可以获取到那些在现实制造中不易获得的图像数据。比如，GANs、变分自编码器、域随机化、数据增强等前沿算法都属于这类方法。

迁移学习

迁移学习使得模型可以在大数据中习得相关知识，然后将此知识应用到相关但是不同的领域中。借此解决小数据问题。例如，我们可以从各种产品或数据源中获取1000张带有凹痕的图片数据，AI从这些数据中学习到有关凹痕的知识，然后运用这些知识及检测识别新型产品上的凹痕，由此解决了新型产品的小数据问题。

自监督学习

类似于迁移学习，但是其获取知识的方法稍有不同。例如，可以把合格产品的图片均匀分割成几个格子，然后打乱其顺序，此时，模型需要学习到特定的知识才能适应小数据问题。

小样本学习

在小样本学习中，小数据问题被重新定义，使得AI系统在更简单，数据量更少的项目上同样取得良好的性能。AI需完成数千个相对简单的检测任务，每个任务只会有10个左右的样本数据。由于数据集很小，因此，AI会提取到最重要的特征。将这种AI系统应用到制造业的小数据检测任务中尽管只能收集到少量的样本数据，但由于经历过上千个类似的小数据任务的锤炼，系统性能也会很优秀。

单样本学习

单样本学习是小样本学习的一个特例，每个分类类别的样本数据为一个，而不是几个。

异常检测

在异常检测中，样本中通常没有不合格产品的数据，合格产品的数据也仅有几例。于是，算法为所有明显偏离合格产品的样本标记上了潜在问题。

知识硬编码

AI团队通过与检测工程师交流，试图把更多的专家知识通过逻辑推演编码到AI系统中。虽然，现代机器学习项目更多的依赖大数据而非专家知识，然而，当数据不够大时，优秀的AI团队仍然可以重新发现专家知识散发出的光芒。

人机回圈(Human-in-the-loop)

人机回圈的意思是，上述列举的任意技术可构造出初始的，但也许是更高误差的系统。但AI足够聪明，能够区分标签置信度的高低，而且知道何时可以将其结果分享给人类专家并“听取”专家建议。于是，AI通过不断学习专家知识实现了自身性能的提升。

通过以上方法的组合使用，制造商能够构建和使用一个高效的视觉检测模型，训练数据最低可至10个。

使用小数据构建AI系统是数以万计的商业项目的重要突破口，因为通常这些项目都只能收集到少量数据。对于制造商来说，实现小数据AI的算法可以减少项目的研发时间和成本。