23.数据预处理之数据离散化处理

最新推荐文章于 2023-04-03 15:45:15 发布

DLANDML

最新推荐文章于 2023-04-03 15:45:15 发布

阅读量783

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/l641208111/article/details/104242738

版权

Python 专栏收录该内容

71 篇文章 31 订阅

订阅专栏

数据离散化就是分箱
一般常用分箱方法是等频分箱或者等宽分箱
一般使用pd.cut或者pd.qcut函数

pandas.cut(x,bins,right=True,labels)
x:数据
bins:离散化的数据，或者切分的区间
labels:离散化后各个类别的标签
right:是否包含区间右边的值

#等宽分箱
df['age_bin']=pd.cut(df['age_new'],5,labels=range(5))
#不加标签 时。将分段的表征展示出来
df['Price_bin']=pd.cut(df['Price_new'],bins=5,labels=range(0,5))

df['Price_bin']
#以柱状图绘制
df['Price_bin'].value_counts().plot(kind='bar')
#或df['Price_bin'].hist()

#自定义分箱标准
w=[100,1000,5000,10000,20000,100000]
df['Price_bin']=pd.cut(df['Price_new'],bins=w)

df[['Price_bin','Price_new']]


df['Price_bin']=pd.cut(df['Price_new'],bins=w,labels=range(0,5))

df[['Price_bin','Price_new']]

df['Price_bin'].hist()


#等频分段
#w为分位点，labels是箱子的标签
k=5
w=[1.0*i/k for i in range(k+1)]
w[0.0,0.2,0.4,0.6,0.8,1.0]
#此处分为5段
df['Price_bin']=pd.qcut(df['Price_new'],q=w,labels=range(5))

df['Price_bin'].hist()

#自定义等频分段，先算出分割点w1
k=5
w1=df["Price_new"].quantile([1.0*i/k for i in range(k+1)])
#等频分割点
w1
#分段标准的最小值要小于数据的最小值，分段标准的最大值要大于数据的最大值
w1[0]=w[0]*0.95
w1[1.0]=w[1.0]*1.1
df['Price_bin']=pd.cut(df['Price_new'],bins=w1,labels=range(0,5))
df['Price_bin'].hist()

DLANDML

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
23.数据预处理之数据离散化处理

数据离散化就是分箱一般常用分箱方法是等频分箱或者等宽分箱一般使用pd.cut或者pd.qcut函数pandas.cut(x,bins,right=True,labels)x:数据bins:离散化的数据，或者切分的区间labels:离散化后各个类别的标签right:是否包含区间右边的值#等宽分箱df['age_bin']=pd.cut(df['age_new'],5,lab...
复制链接

扫一扫