Pandas-高级处理（八）：数据离散化【pandas.cut：根据指定分界点对连续数据进行分箱处理】【pandas.qcut：指定箱子的数量对连续数据进行等宽分箱处理】【get_dummies】

u013250861

已于 2022-04-13 23:50:35 修改

阅读量1.4k

点赞数

分类专栏： Pandas 文章标签： Pandas 数据离散化

于 2022-04-11 00:00:39 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/124088982

版权

Pandas 专栏收录该内容

45 篇文章 20 订阅

订阅专栏

Python实现连续数据的离散化处理主要基于两个函数：pandas.cut和pandas.qcut，pandas.cut根据指定分界点对连续数据进行分箱处理，pandas.qcut可以指定箱子的数量对连续数据进行等宽分箱处理（注意：所谓等宽指的是每个箱子中的数据量是相同的）

应用cut、qcut实现数据的区间分组
应用get_dummies实现数据的one-hot编码

数据离散化

可以用来减少给定连续属性值的个数
在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。

qcut、cut实现数据分组

qcut:大致分为相同的几组
cut:自定义分组区间

get_dummies实现哑变量矩阵

# coding:utf-8

import pandas as pd

#指定箱子分箱（等距离分箱子）
#指定箱子分箱（等距离分箱子）
year = [1992, 1983, 1922, 1932, 1973]   # 待分箱数据
bins = [1900,  1950,  2000]   # 指定箱子的分界点

result = pd.cut(year, bins)
print(result)
# 结果如下：
# [(1950, 2000], (1950, 2000], (1900, 1950], (1900, 1950], (1950, 2000]]
# Categories (2, interval[int64]): [(1900, 1950] < (1950, 2000]]
# 结果说明：其中(1950, 2000]说明year列表的第一个值1992位于(1950, 2000]区间

print(pd.value_counts(result))   # 对不同箱子中的数进行计数

# 结果如下：
# (1950, 2000]    3
# (1900, 1950]    2
# dtype: int64


# labels参数为False时，返回结果中用不同的整数作为箱子的指示符
result2 = pd.cut(year, bins,labels=False)
# 输出结果中的数字对应着不同的箱子
print(result2)

# 结果如下：
# [1 1 0 0 1]
# 结果说明：其中 1 说明year列表的第一个值1992位于(1950, 2000]区间
# 其中 0 说明year列表的第一个值1922位于(1900, 1950]区间

print(pd.value_counts(result2))   # 对不同箱子中的数进行计数

# 结果如下：
# 1    3
# 0    2
# dtype: int64


# 可以将想要指定给不同箱子的标签传递给labels参数
group_names = [ '50_before', '50_after']
result3 = pd.cut(year, bins, labels=group_names)
print(pd.value_counts(result3))

# 结果如下：
# 50_after     3
# 50_before    2
# dtype: int64


#等频分箱
#等频分箱
year2 = [1992, 1983, 1922, 1932, 1973, 1999, 1993, 1995]   # 待分箱数据
result4 = pd.qcut(year2,q=4)   # 参数q指定所分箱子的数量   
# 从输出结果可以看到每个箱子中的数据量时相同的
print(result4)

# 结果如下：
# [(1987.5, 1993.5], (1962.75, 1987.5], (1921.999, 1962.75], 
# (1921.999, 1962.75], (1962.75, 1987.5], (1993.5, 1999.0], 
# (1987.5, 1993.5], (1993.5, 1999.0]]
# Categories (4, interval[float64]): [(1921.999, 1962.75] < 
# (1962.75, 1987.5] < (1987.5, 1993.5] < (1993.5, 1999.0]]

print(pd.value_counts(result4))  # 从输出结果可以看到每个箱子中的数据量时相同的

# 结果如下：
# (1993.5, 1999.0]       2
# (1987.5, 1993.5]       2
# (1962.75, 1987.5]      2
# (1921.999, 1962.75]    2
# dtype: int64

1 为什么要离散化

连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。

2 什么是数据的离散化

连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数
值代表落在每个子区间中的属性值。

离散化有很多种方法，这使用一种最简单的方式去操作

原始人的身高数据：165，174，160，180，159，163，192，184
假设按照身高分几个区间段：150-165, 165-180,180-195

这样我们将数据分到了三个区间段，我可以对应的标记为矮、中、高三个类别，最终要处理成一个"哑变量"矩阵

3 股票的涨跌幅离散化

我们对股票每日的"p_change"进行离散化

在这里插入图片描述

3.1 读取股票的数据

先读取股票的数据，筛选出p_change数据

data = pd.read_csv("./data/stock_day.csv")
p_change= data['p_change']

3.2 将股票涨跌幅数据进行分组

在这里插入图片描述

使用的工具：

pd.qcut(data, q)：
- 对数据进行分组将数据分组，一般会与value_counts搭配使用，统计每组的个数
series.value_counts()：统计分组次数

# 自行分组
qcut = pd.qcut(p_change, 10)
# 计算分到每个组数据个数
qcut.value_counts()

自定义区间分组：

pd.cut(data, bins)

# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

3.3 股票涨跌幅分组数据变成one-hot编码

什么是one-hot编码

把每个类别生成一个布尔列，这些列中只有一列可以为这个样本取值为1.其又被称为独热编码。

把下图中左边的表格转化为使用右边形式进行表示：

在这里插入图片描述

pandas.get_dummies(data, prefix=None)
- data:array-like, Series, or DataFrame
- prefix:分组名字

# 得出one-hot编码矩阵
dummies = pd.get_dummies(p_counts, prefix="rise")

在这里插入图片描述

参考资料：
利用pandas实现数据的离散化处理(分箱操作)
pandas：数据离散化与离散化数据的后期处理(one-hot)

u013250861

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Pandas-高级处理（八）：数据离散化【pandas.cut：根据指定分界点对连续数据进行分箱处理】【pandas.qcut：指定箱子的数量对连续数据进行等宽分箱处理】【get_dummies】

应用cut、qcut实现数据的区间分组应用get_dummies实现数据的one-hot编码1 为什么要离散化连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。2 什么是数据的离散化连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。离散化有很多种方法，这使用一种最简单的方式去操作原始人的身高数据：165，174，160，180，159，1.
复制链接

扫一扫

专栏目录