之前面试时候遇到过这道题,这里整理一下
一般NLPer可能欠采样、过采样问的比较多,上、下采样CVer问的比较多~
上采样和下采样在CNN中,可以理解为放大图片和缩小图片。
所以池化其实可以理解为是下采样。
数据不平衡时,可以使用欠采样和过采样进行解决:
欠采样(undersampling):当数据不平衡的时,比如样本标签1有10000个数据,样本标签0有6000个数据时,为了保持样本数目的平衡,可以选择减少标签1的数据量,这个过程就叫做欠采样。
过采样(oversampling)减少数据量固然可以达到以上效果,并且在一定程度上防止过拟合,但是这也牺牲了数据,因此存在另一种增加样本的采样方法,也就是增加标签0的样本数。
之前面试时候遇到过这道题,这里整理一下
一般NLPer可能欠采样、过采样问的比较多,上、下采样CVer问的比较多~
一般NLPer可能欠采样、过采样问的比较多,上、下采样CVer问的比较多~
![](https://img-blog.csdnimg.cn/6c403f2fa1c348dfab968a6fffa27681.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAWHVfV2F2ZQ==,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)