数据预处理--02 数据归一化/标准化 | 数据连续属性离散化

本文介绍了数据预处理中的关键步骤——数据归一化和连续属性离散化。归一化包括0-1标准化和Z-score标准化,前者通过公式(x-min)/(max-min)将数据映射到[0,1]区间,后者利用Z-score衡量数据与平均值的差距。而连续属性离散化则分为等宽法和等频法,如pd.cut和pd.qcut函数的应用,帮助将数值数据转换为分类属性。" 111617174,10296114,PIM-DM组播机制详解:扩散、剪枝与维护,"['组播', 'PIM', '网络协议', '路由器', '数据传输']
摘要由CSDN通过智能技术生成

数据归一化\标准化

数据标准化(normalization)是将数据按比例缩放, 使之落入一个小的特定区间. 在某些比较和评价的指标处理中经常会用到, 去除数据的单位限制, 将其转化为无量纲的纯数据, 便于在不同单位或量级的指标能够进行比较和加权.

最典型的就是归一化处理, 即将数据统一映射到[0,1]区间

0-1标准化\Z-score标准化

0-1标准化

01 定义:
将数据的最大值\最小值记录下来, 通过公式
x = (x-min) / (max-min) 得到归一化之后的值
02 代码:

df = pd.DataFrame({
   "value1":np.random.rand(10)*20,"value2":np.random.rand(10)*100})
def data_norm(df,*cols):
	df_n = df.copy()
	for col in cols:
		ma = df_n[col].max()
		mi = df_n[col].min()
		df_n[col + "_n"] = (df[col]-mi) / (ma- mi) # 给df_n添加列
	return df_n
df_n = data_norm(df,"value1","value2")
print(df_n.head())

在这里插入图片描述
03 案例应用
八类产品的两个指标value1, value2, 其中value1的权重为0.6, value2权重为0.4.
通过0-1标准化, 判断那个产品综合指标状况最好?
便于在不同单位或量级的指标能够进行比较和加权

df = pd.DataFrame({
   
    "value1":np.random.rand(10)*30,
    "value2":np.random
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值