@R星校长
第3
关:标准化数据
本关任务:使用read_csv()
加载数据集data1
和data2
,然后按照编程要求对数据进行合并和清洗,最后将数据标准化。
相关知识
数据标准化处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲(将一个物理导出量用若干个基本量的乘方之积表示出来的表达式,称为该物理量的量纲式,简称量纲)和量纲单位,当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。为了消除指标之间的量纲影响,保证结果的可靠性,需要进行数据标准化处理,以解决数据指标之间的可比性。
离差标准化
离差标准化是对原始数据的线性变换,使结果值映射到[0−1]
之间。转换函数如下:
X=(x−min(x))/max(x)−min(x)
其中max
为样本数据的最大值,min
为样本数据的最小值。
df = pd.DataFrame(np.random.randn(4,4)* 4 + 3)
df.apply(lambda x:(