正负样例不均匀

最新推荐文章于 2023-03-27 22:02:50 发布

wanghua609

最新推荐文章于 2023-03-27 22:02:50 发布

阅读量557

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38145317/article/details/98602387

版权

问题

1.正负样例不均匀是什么?

2.当识别一副图片时,one stage 会生成大量的anchor(候选框)代码中在哪里体现的?

正负样例不均匀是什么?

在机器学习任务中,我们经常会遇到这种困扰,数据不均衡问题,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降.

解决方法:

1.重新采样训练集

可以使用不同的数据集,有两种方法使不平衡的数据集来建立一个平衡的数据集---欠采样和过采样

1.1 欠采样

欠采样是通过减少丰富类的大小来平衡数据集,当数据量足够时就该采用此方法,通过保存所有稀有类样本呢,并在丰富类别中随机选择与稀有类别样本相等数量的样本

1.2 过采样

相反,当数据量不足时就应该使用过采样,它尝试通过增加稀有样本的数量来平衡数据集,而不是去除丰富类别的样本的数量,通过使用重复,自举或合成少数类过采样等方法来生成新的稀有样品.

作为one stage的网络,正负样例不均匀对于网络精度的潜在影响一直不可忽视,举个简单的例子说明一下,当识别一副图片时,one stage 会生成大量的anchor(候选框)当识别一副图片时,one stage 会生成大量的anchor(候选框),这其中只有少数是正例(物体),大部分的候选框只是框住了背景,在计算损失的时候,网络的loss会被大量的负例(背景)左右,two stage的网络在这方面会做的好一些,因为他们在一开始将anchors做二分类,这等于做了一个初筛,这样一来就降低了正负样本分布不均匀的情况.

retinanet通过改变分类损失计算公式,很大程度上解决了分布不均匀带来的影响,计算公式如下

为什呢?让我们从头说起,二分类误差一般采用交叉熵cross entropy(CE),

CE(p,y)=CE(p_t)=-log(p_t))

一个常用的平衡类别不均的方法是加上一个权重 $\alpha$ (范围在0,1])

$CE(p_t)=-\alpha log(p_t))$

focal loss就是再加上一个权重

$(1-p_t)^\gamma$

为什么加上一个权重就能发挥如此大的作用,可以举一个例子说明,假设 $\alpha =0.25, \gamma =2$ ,前景的概率是p=0.9,那么交叉熵是

$CE(foregroud)=-log(0.9)=0.1053 \\CE(backgroud)=-log(1-0.1)=0.1053 \\FL(foregroud)=-1*0.25*(1-0.9)^2*log(0.9)=0.00026 \\FL(backgroud)=-1*0.25*(1-0.1)^2*log(1-0.1)=0.00026$

损失变成了原来的.....这一段没看懂

网络结构

这么强大的性能,网络结构却十分简单,可以归纳为:resnet(backbone)+FPN+FCN

图像经过resnet主干网络,每经过一个res_block,图像的size都要缩小一半

retinanet选取最后的层构建anchors, 我们可以给它们命名为[C3,C4,C5,P6,P7]

这个时候FPN登场,通过结合多层的特征信息,网络能够更好的处理小目标,同时融合了深层语义信息和浅层的图片细节(局部特征,目标定位等)信息,网络的准确性得到进一步提升.

C3,C4,C5都经过一个卷积层后得到了p3,p4,p5,然后我们将每个金子塔(p3-7)都接上输出,再将他们都连接起来就得到了最终的结果,每一层的输出如下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正负样例不均匀

问题1.正负样例不均匀是什么?2.当识别一副图片时,one stage 会生成大量的anchor(候选框)代码中在哪里体现的?正负样例不均匀是什么?在机器学习任务中,我们经常会遇到这种困扰,数据不均衡问题,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降.解决方法:1.重新采样训练集可以使用不同的数据集,有两种方法使不平衡的数...
复制链接

扫一扫

wanghua609 CSDN认证博客专家 CSDN认证企业博客

码龄7年

421: 原创

3万+: 周排名

58万+: 总排名

223万+: 访问

: 等级

1万+: 积分

342: 粉丝

1636: 获赞

230: 评论

5614: 收藏

私信

关注

热门文章

最新评论

python 字典defaultdict(list)
満湫: [code=python] result = {} for (key, value) in data: if key not in result: result[key] = [] result[key].append(value) [/code] 以小弟的拙见。第一个方法感觉可以改成，先判断键在不在这个result里，如果不在，就在这个键对应位置创一个空列表，用来装那些数据。防止报错
python 字典defaultdict(list)
満湫: Traceback (most recent call last): File "D:\Work_APP\Anconda\envs\motionbert\lib\site-packages\IPython\core\interactiveshell.py", line 3457, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File "<ipython-input-31-a115a0c08eff>", line 3, in <module> result[key].append(value) AttributeError: 'int' object has no attribute 'append'
python 字典defaultdict(list)
満湫: 第一个方法不太行呀
向日葵远程控制linux/window安装
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
高斯滤波gaussian_filter()
chongchongchongya: 谢谢分享。有个小错误，中间w(-1,1)的权重那里应该是0.09474...

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。