以下是这7篇论文中使用的评价指标总结,从通用指标、任务特异性指标、人工评估三个维度分析如何衡量模型性能,并指出当前评估体系的局限性:
1. 通用指标(所有论文共用)
(1) 图像质量评估
-
FID (Frechet Inception Distance)
- 计算生成图像与真实图像的分布距离,值越低越好
- 局限性:对局部属性变化不敏感(如微调年龄可能不影响整体FID)
- 使用论文:(1)(3)(4)(5)(6)(7)
-
LPIPS (Learned Perceptual Image Patch Similarity)
- 衡量编辑前后图像的感知差异,用于评估ID保持能力
- 例:(3)编辑人脸时要求LPIPS < 0.3以保证身份不变
- 使用论文:(1)(3)(4)(7)
(2) 文本对齐度
- CLIP-Score
- 计算生成图像与输入文本的CLIP空间余弦相似度
- 问题:对抽象概念(如“贵族气质”)不准确
- 使用论文:(2)(4)(5)(6)
2. 任务特异性指标(连续属性控制)
(1) 属性控制精度
指标名称 | 计算方法 | 适用论文 | 目的 |
---|---|---|---|
属性分类器准确率 | 用预训练分类器(如AgeNet)检测生成图像的属性 | (1)(4)(7) | 验证“年龄/微笑”等属性是否准确 |
方向线性度 | 拟合隐空间路径的曲率(低曲率=高线性) | (1)(6) | 评估连续控制的平滑性 |
跨属性干扰度 | 编辑属性A时,测量属性B的意外变化 | (7) | 检验解耦能力 |
(2) 连续性量化
-
渐变动画SSIM曲线
- 生成10帧渐变序列,计算相邻帧SSIM的方差(低方差=平滑)
- 例:(6)年龄连续编辑时要求方差 < 0.01
- 使用论文:(3)(6)
-
语义一致性评分
- 人工标注相邻帧是否保持语义一致(如“始终是同一个人”)
- 使用论文:(2)(5)
3. 人工评估(关键指标)
所有论文均包含用户研究(通常邀请50-100人),主要评估:
-
属性编辑准确性
- 提问:“这张图片的年龄是否看起来增加了10岁?”(5级Likert量表)
- 例:(4)的PreciseControl获4.2/5分,基线SD仅2.8分
-
身份保持度
- 侧脸对比测试:“编辑前后是否是同一个人?”(二元选择)
- 最佳结果:(3)的W+适配器达到93% ID保留率
-
自然度
- 判断生成图像是否存在伪影(如面部扭曲)
4. 当前评估体系的局限性
(1) 连续控制缺乏标准化指标
- 问题:现有指标(如FID)无法量化“年龄从30→40岁”的精确度
- 解决方案:(6)提出属性Delta误差:|预测年龄变化 - 目标变化|
(2) 评估偏重静态结果
- 问题:多数论文评估单张输出,忽略动态编辑过程的合理性
- 改进方向:引入视频评估指标(如光流平滑性)
(3) 文化偏差未被充分检测
- 问题:指标未覆盖少数群体特征(如深肤色人脸的年龄编辑效果)
- 参考:(5)的包容性评分(生成图像中少数群体占比)
5. 典型论文评估对比
论文 | 核心指标 | 基线对比结果 |
---|---|---|
(1) | FID↓18.5, 线性度↑0.91 | 比DDPM提升30%线性度 |
(2) | 概念控制准确率↑15% (用户研究) | 超越传统LoRA微调 |
(6) | 年龄Delta误差↓1.2岁 | SDXL原版误差为3.5岁 |
(7) | 多属性干扰度↓0.08 (0=完全解耦) | 比Adapter基线降低40%干扰 |
6. 未来评估趋势建议
- 动态指标:
- 开发编辑路径一致性评分(如编辑“年龄”时不应改变姿势)
- 细粒度物理指标:
- 结合3D人脸模型参数(如BFM形变系数)量化皱纹/轮廓变化
- 偏差审计工具:
- 扩展(5)的框架,自动检测生成结果中的种族/性别偏差
如果需要某篇论文的具体评估协议(如(3)的用户研究问卷设计),可提供详细示例!