数据不平衡是指在分类中,各类别数据的样本量极不平衡(通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据)。比如二类分类,正类的样本数远远比负类的样本数,那对于一些模型(例如感知机),训练好的模型会偏向正类,所以数据不平衡会导致模型的乏化能力差。
参考:https://www.cnblogs.com/kamekin/p/9824294.html
数据不平衡是指在分类中,各类别数据的样本量极不平衡(通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据)。比如二类分类,正类的样本数远远比负类的样本数,那对于一些模型(例如感知机),训练好的模型会偏向正类,所以数据不平衡会导致模型的乏化能力差。
参考:https://www.cnblogs.com/kamekin/p/9824294.html