Plant Methods|智慧农业中的少量学习:发展、应用和挑战调查

    2022年3月,天津大学电气自动化与信息工程学院杨嘉琛等人在Plant Methods发表题为 “A survey of few-shot learning in smart agriculture: developments, applications, and challenges” 的文章。阐述了智能农业中的小样本学习,介绍了小样本学习的定义、四种学习方法、公开的少数样本学习数据集、智慧农业中的各种应用以及未来智能农业面临的挑战。
    文章指出随着人工智能的兴起,深度学习在农业等领域逐渐得到应用,但深度学习依赖大量样本,而农业领域获取大量标注数据存在困难。少样本学习的出现解决了这一问题,它能以少量标注样本训练出性能良好的模型。

文章所做工作

1. 背景介绍

    深度学习在农业领域的应用及问题:文章指出深度学习在农业领域广泛应用,如病虫害识别、植物育种等。但深度学习优秀模型依赖大量训练数据,而农业领域数据获取难,易出现过拟合问题。例如,在图像识别竞赛中深度学习展现强大力量,但在农业领域,由于样本数量有限,当训练大模型基于少量样本时,会出现严重的过拟合问题,网络参数过度拟合,导致训练准确率高而测试准确率低。
    少样本学习的出现:人类可快速学习新事物,受此启发研究人员提出少样本学习。少样本学习模型能以少量标注图像训练分类器,成功将人工智能带入少样本时代,降低了许多领域包括植物生物学获取训练数据的难度和成本。    

2. 文献计量分析

     基于 Scopus 数据库进行定量分析,展示少样本学习相关文献数量的增长趋势及应用领域分布。文章通过 Scopus 数据库的高级搜索工具,提取与少样本学习相关的文献。从 2017 年的两篇文献到 2021 年的 389 篇,反映了少样本学习这一新技术的蓬勃发展和广泛关注。文献计量分析还显示,大部分文献讨论纯理论方法,约 250 篇文献具有更广泛的应用领域,主要集中在医学、生物学和农业等领域。

图片

图1 近5年与few-shot学习主题相关的出版物的实际数量和归一化百分比

3. 主要分类

    文章将现有少样本学习方法分为四类:基于数据增强、基于度量学习、基于外部记忆、基于参数优化。
    基于数据增强的方法通过生成新样本来扩大数据集,解决少样本学习中的过拟合问题。早期数据增强方法通过对原始样本进行旋转、平移等固定规则操作来扩展样本量,虽然简单但能有效增加样本信息。如今更智能的图像增强技术如生成对抗网络(GAN)被广泛应用,它包括生成器和判别器,通过随机噪声生成接近真实且与原始数据相似的新样本。此外,还有学者通过条件 Wasserstein 生成对抗网络(cWGAN)添加分类正则化器和抗塌陷正则化器解决生成样本缺乏判别能力和多样性的问题,或用自动编码器找到不同样本间的变形生成新样本用于训练分类器,也有学者从样本标签入手,利用标签集的关系学习隐含语义信息增强数据集。

图片

   图2 基于数据增强的方法

    基于度量学习的方法通过衡量样本距离完成分类任务。其性能取决于测量方法,最早的测量方法是 Siamese 网络,采用相同权重共享网络模型提取两个不同图像的特征,根据特征距离判断是否为同一类别。类似的方法还有 MatchingNet、Prototype network 等,Prototype network 计算每个类样本的高维特征平均值作为该类的原型,通过计算测试样本与每个类原型的欧氏距离预测样本类别。此外,还有使用其他测量方法如地球移动距离、RelationNet 及其升级版 RelationNet2 等的方法。

图片

图3 基于度量学习的方法

    基于外部存储器的方法模仿长短期记忆(LSTM),在模型中添加额外的记忆模块,记住少量样本的特征信息,完成少样本学习任务。例如,Santoro 等人提出的 memory enhanced neural network(MANN)可解决 LSTM 不稳定的问题,采用外部记忆快速学习样本信息;MetaNet 采用元学习和外部记忆相结合的少样本学习方法,由 base-learner 和 meta-learner 两个学习单元及外部记忆模块组成;memory matching networks 先提取支持集图片特征并存入记忆模块,再与查询集图片特征比较进行分类;lifelong memory module 在训练时保存样本特征信息和标签值,测试时用最近邻思想选择最接近的样本预测标签。

图片

图4 基于外部存储器的方法    

    基于参数优化的方法通过优化器学习如何优化参数,解决网络过拟合问题。经典方法如 MAML 旨在学习合适的初始化参数 θ,面对新任务只需几步梯度更新就能有好效果;TAML 基于最大化熵减少和最小化不平等设计,解决训练偏好问题;Reptile 直接用最具梯度的向量差参数初始化,算法比 MAML 简单但数学上等效于一阶近似 MAML;MetaNAS 将神经架构搜索引入少样本学习,结合 DARTS 与 Reptile,让网络学习初始化参数和网络结构;Guo 等人提出的方法通过互信息和注意力机制结合查询集图像和支持集图像共同生成分类器权重。

图片

图5 基于参数优化的方法

4. 数据集与性能

    (1)详细介绍几个少样本学习专用的公开数据集,包括 Omniglot、CUB、Mini-ImageNet、Tiered-ImageNet、Fewshot-CIFAR100、CIFAR-FS 等。Omniglot 数据集由 1623 类不同手写字符组成,每类字符由 20 人手写,相当于有 1623 个类别,每个类别 20 个样本,图片大小为 105×105。该数据集常被称为 MNIST 转置,图像与笔画数据配对,但在少样本学习中不常使用笔画数据。
    CUB200-2011 数据集是加州理工学院提出的细粒度数据集,用于细粒度分类和识别,也适用于少样本学习。它有 11788 张鸟图像和 200 个不同鸟子类,训练集约 6000 张图像,测试集近 5800 张图像,包含鸟的边界框、标签、关键部位和属性等信息。
    Mini-Imagenet 由 DeepMind 团队从经典数据集 ImageNet 衍生而来,ImageNet 由斯坦福教授李飞飞等人组织收集,包含 20000 多个类别、1400 多万标注图像和至少 100 万框架图像,每个类别不少于 500 张图像。Mini-ImageNet 则小得多,有 100 个类别,每个类别 600 个样本,图片大小为 84×84,被用于少样本学习研究,训练集有 64 个类别,验证集 16 个类别,测试集 20 个类别,还需额外的文件作为注释。
    Tiered-ImageNet 也来自 ImageNet,由 Ren 等人首次提出,有 34 个类别,分为 20 个训练类别、6 个验证类别和 8 个测试类别,每个类别有 10-30 个类,这种划分方法确保训练类别与测试类别完全分离,是少样本学习任务的标准数据集之一。
     Fewshot-CIFAR100 由 Boris N. Oreshkin 等人总结整理,内容与原始 CIFAR-100 相同,有 100 个类别,每个类别 600 张图像,图片大小为 32×32,作者将其分为 20 个超类,训练集有 60 个类别属于 20 个超类,验证集和测试集各有 20 个类别分别属于 5 个超类。
    CIFAR-FS 与 Fewshot-CIFAR100 相同,由 CIFAR100 数据集衍生而来,首次由 [51] 提出,将 CIFAR 100 分为训练集(64 个类)、验证集(16 个类)和测试集(20 个类)。

图片

图6 Omniglot、CUB和mini-ImageNet中的部分图像

    (2)总结不同方法在这些基准数据集上的性能表现。文章统一比较了不同方法在 Omniglot、Mini-ImageNet 和 Tiered-ImageNet 三个数据集上 5-way 和 5-shot 情况下的网络分类准确率。由于 Omniglot 特征简单,新的少样本学习网络不再在该数据集上验证,但仍作为评估网络优秀程度的标准。具体性能表现如表格所示,不同方法在不同数据集上的准确率有所不

表1 不同方法在基准测试上的性能对比

图片

5. 应用领域

    (1)植物病害识别:少样本学习可提高识别速度、准确性和效率,实现自动识别,不再依赖专家经验。例如,Liang 等人用基于度量学习的少样本学习方法识别棉花叶斑病,Wang 等人提出基于图像文本协同表示学习的少样本蔬菜病害识别模型,Argüeso 等人用基于度量学习的少样本模型识别 PlantVillage 数据集中的 38 种植物病害,Zhong 等人用条件对抗自动编码器识别柑橘黄龙病。这些研究仅用少量标注样本就取得了满意效果,使植物病害识别未来不再依赖专家经验,实现自动识别。
    (2)杂草或害虫识别:应用于智能机器人,实现自动除草和害虫控制,提高农业生产效率。例如,Li 等人用少样本学习方法有效识别棉花害虫并应用于嵌入式终端,Gui 等人结合少样本学习与高光谱检测大豆食心虫。目前杂草检测仅部分应用了传统深度学习技术,未来少样本学习在农业植保研究中可能是一个新方向。
    (3)作物检测:帮助农民自动监测农田,感知作物位置和土壤情况,控制作物质量。例如,Zhang 等人用无人机技术和少样本学习检测作物种子位置,Kim 等人用少样本学习检测二维透视场景中的耕地面积为自动拖拉机提供耕种路径指导,Li 等人提出 Siamese 域转移网络结构检测玉米残留物。少样本学习使人们能用最少的资源控制作物质量。
    (4)植物表型和育种:用于植物表型筛选,为植物育种提供贡献。目前有很多利用深度学习进行植物表型育种的研究,但 Karami 等人在少样本条件下完成了玉米计数和定位实验,为植物育种做出了一定贡献。
6. 面临挑战

    (1)数据集问题:现有作物和害虫数据集多为人造,缺乏鲁棒性;自然环境采集的图像需预处理,增加工作量。大部分现有作物和害虫数据集是人为制造的,导致训练出的模型缺乏鲁棒性,不能有效识别真实场景中的物体。自然环境下采集的图像由于光照、天气等原因会出现不均匀光照,不能直接使用,需要进行数据预处理,这增加了前期的工作量。
    (2)技术应用难题:少样本学习在智能农业中的应用还需依赖物联网和嵌入式技术,且要因地制宜,实施难度大。目前农业少样本学习工作多为理论研究,要真正实现少样本识别,需依赖物联网和嵌入式技术,但这是最困难和关键的一步。由于作物生长环境不同,技术实施需因地制宜,这进一步增加了实施难度。
    (3)研究不足:农业和植物领域的少样本学习研究还较少,尤其是在植物表型和育种方面。目前农业和植物领域少样本学习的应用研究不多,特别是在植物表型和育种方面的研究较少。
    (4)技术本身不成熟:少样本学习目前还不能完全摆脱对样本数量的需求。少样本学习本身不是成熟技术,目前仍不能完全摆脱对样本数量的依赖。

文章所做工作的创新点

    1.对少样本学习方法进行详细分类和阐述,为智能农业领域提供了新的研究思路。
    文章将少样本学习方法分为四类:基于数据增强、基于度量学习、基于外部记忆和基于参数优化。每一类方法都有其独特的原理和应用场景,为智能农业领域的研究提供了多种选择。例如,基于数据增强的方法通过生成新样本来扩大数据集,解决少样本学习中的过拟合问题;基于度量学习的方法通过衡量样本距离完成分类任务;基于外部记忆的方法模仿长短期记忆,添加额外记忆模块记住少量样本特征信息;基于参数优化的方法通过优化器学习如何优化参数,解决网络过拟合问题。
    此外,文章还介绍了少样本学习在其他农业相关领域的应用可能性。如在《深度学习在家畜智慧养殖中的挑战与展望》中提到,结合半监督或者少样本学习来提高深度学习模型的泛化能力,实现对家畜生理生境的感知和分析,构建实时全天候的智能监测和分析系统仍有挑战性,但也为未来的研究提供了新的方向。在《一种基于对比学习的少样本细粒度图像分类方法》中,少样本细粒度图像分类任务可广泛应用于商品零售、车辆识别、智慧农业等领域,为智能农业中的农作物精细分类和监测提供了新的思路。
    2.介绍了多个专门用于少样本学习的数据集,丰富了该领域的研究资源。
    文章详细介绍了 Omniglot、CUB、Mini-ImageNet、Tiered-ImageNet、Fewshot-CIFAR100 和 CIFAR-FS 等少样本学习专用的公开数据集。这些数据集涵盖了不同的图像类型和数量,为智能农业领域的少样本学习研究提供了丰富的资源。例如,Omniglot 数据集由不同手写字符组成,常被称为 MNIST 转置;CUB 数据集是细粒度数据集,适用于植物病害识别等任务;Mini-ImageNet 由经典数据集 ImageNet 衍生而来,被用于少样本学习研究。
    同时,文章还提到了在农业领域短文本分类研究中,通过爬取农业问答领域的短文本,形成短文本数据集,为少样本学习在农业文本分类中的应用提供了数据支持。如《基于少样本学习的农业领域短文本分类研究》中,构建了基于 BERT 和 ERNIE 预训练模型的农业短文本分类算法,并与基于决策树模型的算法进行对比分析,表明在数据量不足的情况下仍能获得较高的分类效果。
    3.深入分析了少样本学习在智能农业中的应用挑战,为未来研究指出了重点方向。
    文章指出少样本学习在智能农业领域面临的挑战包括数据集问题、技术应用难题、研究不足和技术本身不成熟等方面。例如,现有作物和害虫数据集多为人造,缺乏鲁棒性,自然环境采集的图像需预处理,增加了工作量;少样本学习在智能农业中的应用还需依赖物联网和嵌入式技术,且要因地制宜,实施难度大;农业和植物领域的少样本学习研究还较少,尤其是在植物表型和育种方面;少样本学习本身不是成熟技术,目前仍不能完全摆脱对样本数量的需求。
    这些挑战的提出为未来的研究指明了重点方向。如在《深度学习在家畜智慧养殖中的挑战与展望》中,也提到了深度学习模型在推广到新的数据集或其他类型的动物时存在局限性,需要结合半监督或者少样本学习来提高模型的泛化能力。同时,人、装备和养殖动物的统一协作及和谐发展,大数据、深度学习技术与畜牧养殖的深度融合,以及人工智能技术的可解释性和安全性等问题,也为智能农业领域的少样本学习研究提供了思考方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值