机器学习要点(二):数据处理相关

重采样技术

1、 随机欠采样

优点:它可以提升运行时间;并且当训练数据集很大时,可以通过减少样本数量来解决存储问题。

缺点:它会丢弃对构建规则分类器很重要的有价值的潜在信息。被随机欠采样选取的样本可能具有偏差。它不能准确代表大多数。从而在实际的测试数据集上得到不精确的结果。


2、 随机过采样

优点:与欠采样不同,这种方法不会带来信息损失。表现优于欠采样。

缺点:由于复制少数类事件,它加大了过拟合的可能性。


3、 基于聚类的过采样(Cluster-BasedOver Sampling)

优点:这种聚类技术有助于克服类之间不平衡的挑战。表示正例的样本数量不同于表示反例的样本数量。

有助于克服由不同子聚类组成的类之间的不平衡的挑战。每一个子聚类不包含相同数量的实例。

缺点:正如大多数过采样技术,这一算法的主要缺点是有可能过拟合训练集。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值