机器学习ground truth

最新推荐文章于 2025-03-27 16:23:27 发布

Byrd

最新推荐文章于 2025-03-27 16:23:27 发布

阅读量3k

点赞数 3

分类专栏：概念 cnn 文章标签： ground truth cnn caffe 机器学习

本文链接：https://blog.csdn.net/dan_teng/article/details/81451367

版权

cnn 同时被 2 个专栏收录

4 篇文章

订阅专栏

概念

1 篇文章

订阅专栏

本文介绍了机器学习中的关键概念groundtruth，即“地面真值”。详细解释了其在有监督学习中的作用，以及如何影响模型的质量。并通过实例展示了正确与错误groundtruth对模型训练的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Ground truth

最近在做计算机视觉方面的一些工作，刚刚入行，懂得比较少，很多东西需要慢慢学习积累。即日起开始总结部分内容，以自己复习为根本出发点，可能比较low，无所谓啦～

机器学习经常遇到ground truth一词，根据知乎回答，字面意思为地面真值，地面实况，可理解为以某种参考值为认定的真实值。比如，对某医学图像，含解剖结构，找某个医生进行边缘勾画，这个参考值，就成为了算法评价采用的真实值。具有实地考察、测量的意思。由于这个值是这个医生勾画的，以他的经验为依据，因此本质上还是参考值。

知乎lee philip解释如下：
机器学习包括有监督学习(supervised learning)，无监督学习(unsupervised learning)，和半监督学习(semi-supervised learning)。在有监督学习中，数据是有标注的，以(x, t)的形式出现，其中x是输入数据，t是标注。正确的t标注是ground truth，错误的标记则不是。（也有人将所有标注数据都叫做ground truth）由模型函数的数据则是由(x, y)的形式出现的。其中x为之前的输入数据，y为模型预测的值。标注会和模型预测的结果作比较。
在损耗函数(loss function / error function)中会将y 和 t 作比较，从而计算损耗(loss / error)。比如在最小方差中：

1 2 m \sum i = 1 m (y - t) 2

$\frac{1}{2m} \sum_{i=1}^{m}(y-t)^{2}$

因此如果标注数据不是ground truth，那么loss的计算将会产生误差，从而影响到模型质量。比如输入三维，判断是否性感：
1. 错误的数据
标注数据1 ( (84,62,86) , 1)，其中x =(84,62,86), t = 1 。标注数据2 ( (84,162,86) , 1)，其中x =(84,162,86), t = 1 。这里标注数据1是ground truth，而标注数据2不是，也就是说，数据2被标记错误了。
预测数据1 y = -1
预测数据2 y = -1

L o s s = 2

$Loss = 2$
2. 正确的数据
标注数据1 ( (84,62,86) , 1)，其中x =(84,62,86), t = 1 。
标注数据2 ( (84,162,86) , 1)，其中x =(84,162,86), t = -1 。（改为ground truth）这里标注数据1和2都是ground truth。
预测数据1 y = -1
预测数据2 y = -1