Pandas数据预处理(三)

本文介绍了数据预处理中的标准化方法,包括离差标准化和标准差标准化,强调了数据标准化在消除量纲影响、提升分析结果可靠性上的重要性。并提供了具体的编程任务,要求使用Pandas读取和合并数据集,进行数据清洗,填充缺失值,并对数据进行离差标准化处理。
摘要由CSDN通过智能技术生成

时间煮雨
@R星校长

3关:标准化数据

本关任务:使用read_csv()加载数据集data1data2,然后按照编程要求对数据进行合并和清洗,最后将数据标准化。

相关知识

数据标准化处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲(将一个物理导出量用若干个基本量的乘方之积表示出来的表达式,称为该物理量的量纲式,简称量纲)和量纲单位,当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。为了消除指标之间的量纲影响,保证结果的可靠性,需要进行数据标准化处理,以解决数据指标之间的可比性。

离差标准化

离差标准化是对原始数据的线性变换,使结果值映射到[0−1]之间。转换函数如下:

X=(xmin(x))/max(x)min(x)

其中max为样本数据的最大值,min为样本数据的最小值。

df = pd.DataFrame(np.random.randn(4,4)* 4 + 3)
df.apply(lambda x:(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值