数据标准化常见问题:对整个数据集数据标准化后再划分训练集、测试集和先对训练级标准化再将规则用于测试集有什么区别(Python实现)

       在数据分析与挖掘、算法建模的都会用到数据标准化。数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

       但是经常会遇到一个问题:

       方式一:先对整个数据集数据标准化后再划分训练集、测试集

       方式二:先对训练级标准化再将规则用于测试集

       为什么这么做?这两种方式有什么区别?

       如果是做案例类学习研究,由于数据量是固定的,其实这两种方式不会有太大的区别;但是在实际的业务应用中,第二种方式还是会比第一种方式更可靠,因为会有实时的数据集进来应用模型,而这时的数据处理规则仍然采用建模前的规则会有一定的容错率。

       可以思考一下:

       第一种方式,先对整个数据集进行标准化之后,假设标准化规则的最大值为100,最小值为1,使数据的最大值为1,最小值为0.05,再将其划分为训练集和测试集,此时训练集或者测试集是同一个规则。

       第二种方式:先对训练级标准化再将规则用于测试集,本身训练集和测试集的极值(最大值,最小值)会不同,例如训练集最大值为100,标准化之后为1,而测试集最大值为200,按训练集的标准化规则为1.5,而如果用测试集的标准化规则就会为1。但此时的模型会将1看做100,而不是200,会造成误差,并且有实时数据来应用模型,采用训练集的标准化规则,更适合于模型。

from sklearn.model_selection import train_test_split
data_tr1,data_te1,target_tr,target_te = train_test_split(media_rfm.iloc[:,3:9],media_rfm['class'],test_size=0.2,random_state=10)
from sklearn.preprocessing import StandardScaler
stdScale = StandardScaler().fit(data_tr1) ## 生成规则
data_tr = stdScale.transform(data_tr1) ## 将规则应用于训练集
data_te = stdScale.transform(data_te1) ## 将规则应用于测试集

 

文章未经博主同意,禁止转载!

 

评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值