机器学习二:数据处理

文章介绍了为了提高算法训练效果,如何处理数据集。包括四种方法:随机和系统采样来选取目标数据,归一化处理不同尺度的数据,使用正态分布3倍方差原则去除噪声,以及根据训练目的过滤数据。这些步骤旨在创建对算法干扰最小的数据结构。
摘要由CSDN通过智能技术生成
目的:将整个数据集调整为对算法干扰最小的结构,以便提高最终算法的训练效果。

一、采样
在数据集中,未必所有的数据都需要,用采样提取数据
采样:按照某种规律从样本中挑选目标数据
1、随机采样
有放回/无放回
2、系统采样
等距采样,无放回
3、分层采样
将数据分类,在每个类中抽取,再进行组合
二、归一化
当数据集中的数据变化梯度大小不一,如同时存在年、月、日、米、光年等量纲时,相互之间的变换呈10的n次幂,用归一化可以减少这种计算。
归一化:将数据限定在[0,1],简化计算

三、去噪
样本中可能存在与常规信息不符的信息,这类信息对训练效果有极大影响,尤其是线性算法。
正态分布3倍方差原则:将落在三倍方差以外的点设为噪声除掉

四、过滤
同一份数据,目的不同,就要用不同的信息进行训练处理,挑取对本次训练有益的数据即为过滤。
去除不想作为训练样本但又不是噪声的数据,这与去噪不同。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值