当机器学习中样本比例不平衡时,通常会对数据进行采样的方法,对数据采样可以有针对性地改变数据中样本的比例,采样一般有两种方式:over-sampling 和 under-sampling,前者是增加样本数较少的样本,其方式是直接复制原来的样本,而后者是减少样本数较多的样本,其方式是丢弃这些多余的样本。
通常来说,当总样本数目较多的时候考虑 under-sampling,而样本数数目较少的时候考虑 over-sampling。
当机器学习中样本比例不平衡时,通常会对数据进行采样的方法,对数据采样可以有针对性地改变数据中样本的比例,采样一般有两种方式:over-sampling 和 under-sampling,前者是增加样本数较少的样本,其方式是直接复制原来的样本,而后者是减少样本数较多的样本,其方式是丢弃这些多余的样本。
通常来说,当总样本数目较多的时候考虑 under-sampling,而样本数数目较少的时候考虑 over-sampling。