Human vs machine Detecting wildlife in camera trap images 论文阅读

本文链接：https://blog.csdn.net/Huang_cfff/article/details/131210742

阅读时间：2023.6.6

来源：elsevier

摘要

科学问题

生态学中越来越多的使用红外相机来收集野生动物信息，导致大量的原始数据需要审查和注释。

为了加快红外照片的处理，许多人开始使用人工智能，微软2019开发了一个先进的计算机视觉模型MegaDrtector，能够很好的处理世界各地的生态环境中野生动物检测。

如何通过MegaDetector来促进人们对人工智能工具在红外照片方面效用的理解？

方法

使用了美国阿拉斯加北极地区红外照片，与人工审查对比，评估了MegaDetector模型的性能。

结果

1.MegaDetector可靠的确定了野生动物的空与非空。（准确率≥94.6%）

2.但是对延时摄影机收集的图像来说性能要差得多。（准确率≤61.6%）

3.获得了对动物大小和距离检测限制的见解。

引言

研究背景

工具和技术的进步可以收集和存储大量数据，导致大量的数据需要被处理以提取相关的信息。数据收集和处理能力之间的不平衡性已经成为许多学科只是生成的一个重大挑战。

红外相机通常也会产生海量的数据，人工进行审查处理困难。

思想推进

机器学习方法能够减少数据收集和处理之间的滞后性，然而，计算机视觉模型开发迅速，并容易获得，对模型的优势和局限性有一个全面的了解是必不可少的。对模型进行批判性的评估有助于促进这种理解，然而，评估结果很大程度上取决于标记良好、有代表性的数据集。

当由运动检测产生的图像集被用来评估自动物体检测模型的性能时，被评估的任务基本上是该模型能多好地检测到由相机的运动检测传感器检测到的野生动物。然而，一个模型的性能问题通常是指自动模型在图像中检测野生动物的能力如何，而这些野生动物本可以通过人工审查检测出来。这种实际评价和预期评价之间的细微差别对于在景观中进行的摄像陷阱研究尤为重要。

理解：

红外照片通常的性能评估任务是：检测到目标的能力

然而通常是：对于人工审查能够检测出来的红外照片来说，模型的检测能力如何。

红外相机分为两种，运动传感器（检测到指定范围内有目标才会拍摄/非常小的动物也不会拍摄）和延时摄影机（隔一段时间自动拍摄），这就产生了：相机触发范围和视线范围两种情况。

因此，使用运动检测和延时摄像两种情况产生的两种不同数据集应严格划分，从而分情况评估检测模型。

许多模型被开发以解决特定环境或条件下的视觉任务，然而它们并不能适应更广泛的应用。例如检测鸟类开发的模型并不能适应大型的哺乳动物，所以微软地球AI推出了通用的图像检测模型MegaDetector V4.1（Raster R-CNN），已被证明在检测复杂背景图像中的物体时具有较大的准确性。

目的：

比较人工和Mega在红外照片中检测目标的性能，评估每种图像处理方法正确标记空/非空在运动检测/延时摄影中的比例
确定最小检测尺寸（即动物在图像中占据的最小像素区域）和最大检测距离（相机与动物距离）【这种距离下两种相机都不能可靠的检测目标】

2方法

2.1研究领域

数据集：美国阿拉斯加北极地区

数据集所在地域特点：

苔原地貌，平坦，几乎无树 =》相机视角和动物距离远远超出了运动触发相机的检测范围

背景同一

物种多样性相对较低，并且其中大多数物种与MegaD训练数据具有相似的物理特征。

捕获率较高的物种具有独特的形态和行为特征 =》方便人工审查以确定身份

2.2图像收集

相机型号：Reconyx HyperFire 2 HF2X，离地1m

分辨率：2048*1440

拍摄机制：

5min间隔拍摄延时图像

延时图像之间间隔10s和30s触发运动时记录3副图像序列（一个事件）

分布：24h内20个采样点

2.3图像处理

数据集用人工审查和自动处理分开独立处理。

人工：二次详查

自动：适用MegaD

2.4数据分析

人工审查与MegaD生成混淆矩阵

设置 ≥0 25 50 75 四个置信阈值

此外，单独设置运动传感和延时摄影两个数据集。

使用【采样面积 = （最大检测距离2 * 相机的检测角度）/2】

3结果

共6224张图像【7.5运动触发，92.5延时】

其中2862张【46.0%人工审查为非空】【13.6%运动触发，86.4%延时】

3362【54.0.0%人工审查为空】【2.3%运动，97.7%延时】

两种不同相机拍摄图片中，非空所占比例：

运动：83.7%

延时：42.9%

物种：

运动触发：

驯鹿：99.5%

鸟类：2.3%

（因为同一张图片可能含有多个物种）

延时拍摄：

驯鹿：83.6%

鸟类：18.1%

并由＜1%的图像包含微型动物（地鼠、狐狸）

3.1手工标注 VS MegaD

运动触发的红外照片中，MegaD正确标记（TP+TN）占94.6【>0%阈值】和95.7【>75阈值】

延时触发的红外照片中，MegaD正确标记了55.7%【0%阈值】和61.6%【≥75阈值】

3.2探测尺寸和距离限制

驯鹿是唯一有足够样本的物种。

运动相机对驯鹿的最小检测尺寸为600px

MegaDetector【0%阈值】下为60px

人工审核员为4px

作者估计：

摄像头运动检测传感器对驯鹿最大检测距离为29米

MegaD在0%阈值下为222米

人工审查为2551米

根据相机角度和视野

对驯鹿的最大取样面积为

运动传感器：273平方米

MegaD【0%阈值】：16194平方米

人工审查：2.14平方公里

4 讨论

MegaD与人工审查相比，在运动传感触发的条件下，表现得异常出色【>0%和75%的阈值下有94.6和95.7的正确率】
发现Mega D的最小检测尺寸限制比运动传感器小10倍左右【>0阈值下MegaD为60px，运动传感为600px】
导致MegaD的最大检测距离和采样面积分别比运动检测相机大8和59倍

表明：

使用运动传感相机的数据集进行评估时，MegaD的表现可能良好

MegaD在延时相机上产生的数据集，性能比人工审查要差得多，【0%和75%阈值的情况下，分别有55.7%和61.6%正确率】，推测可能是因为人工审查的最小检测尺寸比MegaD小15倍【60px与4px】
人工审核延时图像时，驯鹿的最大检测距离和采样面积分别是11倍和132倍。

表明：

MegaD与人工审查相比，在处理延时图像时要比处理运动检测图像性能差异较大。

红外相机中运动检测方法并没有充分利用计算机视觉和人工审查识别目标的能力，从而最终限制了模型评估和一般红外相机中可以获得的潜在信息。

运动触发相机的数据集要和延时相机数据集具有相当大的不同特征。如：延时摄影的数据集中，包含一个以上目标图像总数要多出6倍，并且能够捕捉被运动检测相机遗漏的动物群体

4.1局限性

此论文对MegaD性能的评估只涉及到分离有无动物，诸如：个体数量等信息，可能对生态学研究人员㡱相对丰度估计、密度估计或者人口统计学更有用
评估没有对MegaD进行再训练，性能评估是基于MegaD的初始原始输出，这与MegaD模型训练时的数据特征有关（分类比例，物种种类，形态，背景等）
MegaD与人工审查时，处理流程不同，MegaD是在一张图像上直接寻找和识别物体，而人工大多是通过一系列连续图像之间的变化来寻找和识别物体（上下文），可以利用人工处理的思维改进模型
产生的评估仅是建立在驯鹿这一物种上的，可能伴随着某种误差。