解决样本不均衡问题:
1. 上采样:增加原来样本数量较少的样本,直接复制原来的样本----样本较少
2. 下采样:较少原来样本数量较多的样本,丢弃多于的样本----------样本较多
每次正样本数量不变,随机选择等量的不同负样本进行模型训练,反复几次,训练多个模型,投票决定最终的分类
3. 合成样本:增加原来样本数量较少的样本。----------------------------样本较少
从各个feature随机选择一个已有值,然后拼接成一个新样本
4. 改变样本权重:增大样本数量类别少类别的权重
当这样的样本被误分,损失值要乘以权重。