数据预处理--02 数据归一化/标准化 | 数据连续属性离散化

最新推荐文章于 2024-08-21 20:36:21 发布

夜跑

最新推荐文章于 2024-08-21 20:36:21 发布

阅读量1.3k

点赞数

分类专栏：数据分析\挖掘--数据预处理

本文链接：https://blog.csdn.net/YEPAO01/article/details/96459850

版权

本文介绍了数据预处理中的关键步骤——数据归一化和连续属性离散化。归一化包括0-1标准化和Z-score标准化，前者通过公式(x-min)/(max-min)将数据映射到[0,1]区间，后者利用Z-score衡量数据与平均值的差距。而连续属性离散化则分为等宽法和等频法，如pd.cut和pd.qcut函数的应用，帮助将数值数据转换为分类属性。" 111617174,10296114,PIM-DM组播机制详解：扩散、剪枝与维护,"['组播', 'PIM', '网络协议', '路由器', '数据传输']

摘要由CSDN通过智能技术生成

文章目录

数据归一化\标准化
- 0-1标准化
- Z-score标准化
数据连续属性离散化
- 等宽法 pd.cut(x, bins, right=True, labels=None)
- 等频法 pd.qcut(x, q, labels=None, retbins=False)

数据归一化\标准化

数据标准化(normalization)是将数据按比例缩放, 使之落入一个小的特定区间. 在某些比较和评价的指标处理中经常会用到, 去除数据的单位限制, 将其转化为无量纲的纯数据, 便于在不同单位或量级的指标能够进行比较和加权.

最典型的就是归一化处理, 即将数据统一映射到[0,1]区间

0-1标准化\Z-score标准化

0-1标准化

01 定义:
将数据的最大值\最小值记录下来, 通过公式
x = (x-min) / (max-min) 得到归一化之后的值
02 代码:

df = pd.DataFrame({
   "value1":np.random.rand(10)*20,"value2":np.random.rand(10)*100})
def data_norm(df,*cols):
	df_n = df.copy()
	for col in cols:
		ma = df_n[col].max()
		mi = df_n[col].min()
		df_n[col + "_n"] = (df[col]-mi) / (ma- mi) # 给df_n添加列
	return df_n
df_n = data_norm(df,"value1","value2")
print(df_n.head())

在这里插入图片描述
03 案例应用
八类产品的两个指标value1, value2, 其中value1的权重为0.6, value2权重为0.4.
通过0-1标准化, 判断那个产品综合指标状况最好?
便于在不同单位或量级的指标能够进行比较和加权

df = pd.DataFrame({
   
    "value1":np.random.rand(10)*30,
    "value2":np.random

最低0.47元/天解锁文章

夜跑

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录