Learning Representations For Images With Hierarchical Labels(四)

大烤翅

已于 2022-04-10 15:13:57 修改

阅读量1.7k

点赞数

分类专栏：论文笔记文章标签：计算机视觉机器学习

于 2022-04-10 15:13:43 首次发布

本文链接：https://blog.csdn.net/weixin_39627422/article/details/124077736

版权

Chapter 4 实证分析：将标签层次结构注入CNN分类器

Chapter 4 实证分析：将标签层次结构注入CNN分类器

在本章中，我们描述了用于评估我们帮助分类器利用标签层次结构的方法的数值实验。在讨论实验细节之前，我们将讨论在不同模型之间比较性能指标的选择。

4.1 性能指标

为了量化性能，我们使用微观和宏观平均分数。尽管微积分的贡献与类别规模成比例，但最终却掩盖了不太频繁出现的类别。这样的模式在很大程度上是具有层次标签的数据集的一部分，因为层次结构的更高级别的类抽象了它们的后代，与下面的类相比，具有更多的样本，而层次结构的叶节点具有最少的样本数。相比之下，宏观分数对所有类别单独计算的分数进行非加权平均。

考虑表4.1所示的数据集。当为层次结构中的每个级别使用分类器时，分类器更倾向于盲目预测多数标签，以提高其微观分数。通过始终预测橙皮科、梨科和梨属，它获得了微平均精度、召回率和F1分数（0.5、0.5、0.5）。这种行为是不可取的。然而，宏观平均分数为（0.1364,0.2727,0.1724），这反映了分类器的性能较差。

表4.1.ETHEC数据集的一个子集，用于演示使用宏观和微观评分的优缺点。

为了更好地了解模型在哪些方面表现不佳，微观和宏观平均分数也会在层次结构中的每个级别上进行计算。

真阳性率：真阳性率（TPR）是该方法正确预测的实际阳性率的分数。

真阴性率：真阴性率（TNR）是通过该方法正确预测的实际阴性的分数。

精确度：精度计算模型预测为真的标签中实际为真的部分。

召回率：召回率计算真实标签中预测为真实的部分。

F1分数： Hit@k：

式中， $SortedPredictions(i)=\left \{ label_{0}^{pred}, label_{1}^{pred},..., label_{k-1}^{pred}, label_{k}^{pred}\right \}$ 是第i个数据样本的top-k预测集。

宏观平均分数:通过对所有标签上的度量进行平均，计算出度量的宏观平均分数。

微观平均分数：一个指标的微平均分数是通过在所有标签上累积贡献（对性能指标）来计算的，这些累积贡献用于计算微分数。

4.2 层次结构的CIFAR-10

要查看层次结构创建的详细信息，请参阅第2.3节。

4.2.1 每级分类器

训练规模对训练表现的影响

为了测试数据集大小对性能的影响，我们通过改变训练集的大小来进行实验。我们随机选取数据集中3个大小不同的子集，以查看对分类性能的影响，并作为对实现的健全性检查。

我们选择3种训练集配置（所有样本、1000个样本、100个样本），并训练100个epoch。我们始终保持验证和测试集不变，如第2.3节所述。性能比较见表4.2。这些数字会在看不见的测试集上报告。

表4.2.当改变训练数据量时，分层CIFAR-10数据上每级分类器的性能指标。本实验中使用的模型是在1000类ImageNet数据集上预训练的。所有权重均以0.01的学习率更新，输入空间维度为224x224。P、 R和F1代表精确度、召回率和F1分数。前缀为m的度量是微平均的，而前缀为M的度量是宏平均的。表现最好的模型都用粗体字标出。