pandas.cut()实现数据离散化

数据离散化一般用来把采集到的数据点分散到设定好的多个区间中,或者在不同的区间内选择特定数据值代表该区间的数据。pandas的cut函数实现数据离散化操作。
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=‘raise’)
参数:
x:表示要分箱的数组,必须是一维的。
bins:int或序列类型的数据。int类型的值表示在x范围内的等宽单元的数量(划分为多少个等间距区间);序列表示将x划分在指定的序列中,若不在此序列中,则为NaN。
right:是否包含右端点,默认True。
labels:用于生成区间的标签。
rebins:是否返回bins。
precision:精度,默认保留三位小数。
include_lowest:是否包含左端点,默认False。
返回值:Categorial对象,包含区间划分的数量和各区间范围。

(1)在要分箱的数组范围((最小指,最大值])内划分等间距区间

import pandas as pd
x = [30, 90, 0, 70, 100]
pd.cut(x, 5)

在这里插入图片描述
(2)把要分箱的数组划分在指定的序列中,默认区间前开后闭

已标记关键词 清除标记
表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页