【论文阅读笔记】NIMA: Neural Image Assessment

最新推荐文章于 2025-05-05 22:43:34 发布

dwqy11

最新推荐文章于 2025-05-05 22:43:34 发布

阅读量816

点赞数

分类专栏： CV学习笔记文章标签：深度学习人工智能 python 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dwqy11/article/details/108980048

版权

CV学习笔记专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种使用EMDloss评估图片美观度的方法，通过分类器输出的概率值来模拟人类评分分布，进而获取图片美观度的均值。此方法不仅考虑了图片得分的分布情况，还利用累积分布概率函数捕捉有序类别间的类间关系，相较于传统的交叉熵损失函数，取得了更好的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原理

分类器输出各个分数的概率值，与GT的打分计算loss
loss采用EMDloss
这样意味着不是简单的二分类，也不是对得分进行回归，而是让模型去生成对输入图片的得分的分布，并且假设是高斯分布，这样就可以得到均值和方差，用均值作为输入图片美观度的得分
好处在于，这个分布模拟了许多人为这张图片打分后，打分的分布情况，这样得到的均值仿佛在统计意义上更加贴合人类的偏好，相比其他的方法也的确得到了更高的精度

模型结构

各种baseline CNN + FC + softmax
FC的输出维度由数据集打分的范围决定，例如1-10分则为10个分类

重点理解

文章的重点主要在于采用了这个EMD函数，之前没见过，需要理解一下
在这里插入图片描述
CDF是累计分布概率函数，所以能够体现出有序类别中的类间关系，[21]中已经证明对于这种从1-10打分的分类问题来说，EMD loss比CE loss的效果更好。

[21] L. Hou, C.-P. Yu, and D. Samaras, “Squared earth mover’s distancebased
loss for training deep neural networks,” arXiv preprint
arXiv:1611.05916, 2016. 2, 6

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。