原理
- 分类器输出各个分数的概率值,与GT的打分计算loss
- loss采用EMDloss
- 这样意味着不是简单的二分类,也不是对得分进行回归,而是让模型去生成对输入图片的得分的分布,并且假设是高斯分布,这样就可以得到均值和方差,用均值作为输入图片美观度的得分
- 好处在于,这个分布模拟了许多人为这张图片打分后,打分的分布情况,这样得到的均值仿佛在统计意义上更加贴合人类的偏好,相比其他的方法也的确得到了更高的精度
模型结构
各种baseline CNN + FC + softmax
FC的输出维度由数据集打分的范围决定,例如1-10分则为10个分类
重点理解
文章的重点主要在于采用了这个EMD函数,之前没见过,需要理解一下
CDF是累计分布概率函数,所以能够体现出有序类别中的类间关系,[21]中已经证明对于这种从1-10打分的分类问题来说,EMD loss比CE loss的效果更好。
[21] L. Hou, C.-P. Yu, and D. Samaras, “Squared earth mover’s distancebased
loss for training deep neural networks,” arXiv preprint
arXiv:1611.05916, 2016. 2, 6