机器学习中的正/负样本

转自:http://www.cnblogs.com/rainsoul/p/6247779.html

在机器学习中经常会遇到正负样本的问题,花了一点时间查找资料,基本上弄明白了一点到底是怎么回事,记录在这里以便以后查看,也希望能够帮助到有疑惑的人,当然也希望理解的比较透彻的人看到之后对于理解的不对的地方能够予以指点。

首先我将这个问题分为分类问题与检测问题两个方面进行理解。在分类问题中,这个问题相对好理解一点,比如人脸识别中的例子,查到的资料中介绍的比较清楚的网址如下(http://stackoverflow.com/questions/25598335/collect-negative-samples-of-adaboost-algorithm-for-face-detection),其中的截图如下,正样本很好理解,就是人脸的图片,负样本的选取就与问题场景相关,具体而言,如果你要进行教室中学生的人脸识别,那么负样本就是教室的窗子、墙等等,也就是说,不能是与你要研究的问题毫不相关的乱七八糟的场景图片,这样的负样本并没有意义,还有一个比较好的网址是(http://www.doc.ic.ac.uk/~sgc/teaching/pre2012/v231/lecture10.html)

在检测的问题中,我理解着就不是那么简单了,因为检测问题需要做的事情是指出哪里有什么,也就是既要给出框,又要说明框中是什么,在这种情况下,我们所具备的数据就是一些人工标注的图片,这些图片上有框,并且会给出框中的物体类别,我们需要运用这些数据生成训练中的正负样本数据,参考了faster以及SSD两种检测框架中对于正负样本的选取准则,我的理解如下:

首先,检测问题中的正负样本并非人工标注的那些框框,而是程序中(网络)生成出来的框框,也就是faster rcnn中的anchor boxes以及SSD中在不同分辨率的feature map中的默认框,这些框中的一部分被选为正样本,一部分被选为负样本,另外一部分被当作背景或者不参与运算。不同的框架有不同的策略,大致都是根据IOU的值,选取个阈值范围进行判定,在训练的过程中还需要注意均衡正负样本之间的比例。

 

我理解着,在fast的框架中,也是需要多SS算法生成的框框与GT框进行IOU的判断,进而选取正负样本,总之,正负样本都是针对于程序生成的框框而言,而非GT数据。

度量学习(Metric Learning)是一种机器学习技术,其目的是学习数据点之间的距离度量规则,以便更好地反映数据的真实相似程度。在度量学习任务,选取样本样本是构建训练集的关键步骤。 ### 样本的选择 样本通常指的是在实际应用场景被认为应该非常接近的数据对。例如,在图像识别任务,如果两个图片的内容高度相似,则它们之间就形成了一个样本对。在文本分类,两个主题或内容极其相关的文章可以视为一组样本。选择样本时需要确保它们能够代表真实场景下的相似性关系,并尽可能涵盖各种可能的相关情况,以提高模型泛化能力。 ### 样本的选择 样本则是在实际应用被认为是应该相距较远的数据对。这包括了不应该被视为“同类”的数据集合。例如,在上文提到的图像识别例子,两张内容完全无关的图片就可以构成一对样本;在文本分类任务,关于同一主题但表达方式完全不同、主题截然不同的文章就是一组样本。挑选合适的样本有助于明确哪些情况属于异常或不相关的类别,从而帮助模型学会区分不同的类别边界。 ### 如何合理地选取样本 合理的选取样本应当考虑以下几个方面: 1. **多样性**:确保样本在特征空间有足够的覆盖范围,避免只包含某些特定类型的样本。 2. **平衡性**:样本的数量应尽量保持均衡,过大的偏差可能会导致模型偏向于学习较多的样本类别,而忽略其他类别。 3. **代表性**:所选样本应能反映出真实世界的数据分布特性,避免偏见。 4. **动态调整**:随着模型迭代优化过程,可能需要适时更新样本集,加入新的样本,以适应模型学习过程的新发现。 通过上述策略,可以有效地构建用于度量学习的高质量训练数据集,进而促进模型在实际应用的性能提升。当然,具体的样本选取细节会依据具体的应用场景和目标任务有所不同。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值