Python数据预处理--数据连续属性离散化

最新推荐文章于 2024-07-09 14:17:32 发布

小天资源

最新推荐文章于 2024-07-09 14:17:32 发布

阅读量2.8k

点赞数 2

分类专栏：数据建模 Python 数据分析

本文链接：https://blog.csdn.net/qq_42169061/article/details/106134742

版权

Python 同时被 3 个专栏收录

53 篇文章 13 订阅

订阅专栏

数据分析

44 篇文章 4 订阅

订阅专栏

数据建模

8 篇文章 3 订阅

订阅专栏

数据连续属性离散化

数据连续属性离散化

数据连续属性离散化

介绍：连续属性变换成分类属性，即连续属性离散化
在数值的取值范围内设定若干个离散划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表每个子区间中的数据值
分类：等宽法 / 等频法

等宽法

导入库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

创建一组年龄数据并使用cut进行分组

ages=[20,22,25,27,21,23,37,31,61,45,41,32]
# 有一组人员年龄数据，希望将这些数据划分为“18到25”,“26到35”,“36到60”,“60以上”几个面元

bins = [18,25,35,60,100]
cats = pd.cut(ages,bins)
print(cats)
print(type(cats))
print('-------')
# 返回的是一个特殊的Categorical对象 → 一组表示面元名称的字符串

在这里插入图片描述

用labels参数设置自己的区间名称

group_names=['Youth','YoungAdult','MiddleAged','Senior']
print(pd.cut(ages,bins,labels=group_names))

在这里插入图片描述

对DataFrame进行等分

df = pd.DataFrame({'ages':ages})
group_names=['Youth','YoungAdult','MiddleAged','Senior']
s = pd.cut(df['ages'],bins)  # 也可以 pd.cut(df['ages'],5),将数据等分为5份
df['label'] = s
cut_counts = s.value_counts(sort=False) 
print(df)
print(cut_counts)

利用散点图进行图示显示

plt.scatter(df.index,df['ages'],cmap = 'Reds',c = cats.codes)
plt.grid()
# 用散点图表示，其中颜色按照codes分类
# 注意codes是来自于Categorical对象

等频法

利用qcut进行四分位数切割

data = np.random.randn(1000)
s = pd.Series(data)
cats = pd.qcut(s,4)  # 按四分位数进行切割，可以试试 pd.qcut(data,10)
print(cats.head())
print(pd.value_counts(cats))
print('------')
# qcut → 根据样本分位数对数据进行面元划分，得到大小基本相等的面元，但并不能保证每个面元含有相同数据个数
# 也可以设置自定义的分位数（0到1之间的数值，包含端点） → pd.qcut(data1,[0,0.1,0.5,0.9,1])

利用散点图进行图示显示

plt.scatter(s.index,s,cmap = 'Greens',c = pd.qcut(data,4).codes)
plt.xlim([0,1000])
plt.grid()
# 用散点图表示，其中颜色按照codes分类
# 注意codes是来自于Categorical对象

Python数据预处理：

小天资源

关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录