Pandas数据预处理4--转换数据

最新推荐文章于 2023-01-06 11:17:12 发布

留校察看的阿车

最新推荐文章于 2023-01-06 11:17:12 发布

阅读量631

点赞数

分类专栏：大数据 Python 文章标签： python 大数据

本文链接：https://blog.csdn.net/gm1_1/article/details/124225581

版权

大数据同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

Python

12 篇文章 0 订阅

订阅专栏

1 哑变量处理类别型数据

pd.get_dummies(DataFrame)

2 离散化连续型数据

2.1 等宽法

pd.cut(DataFrame['amounts'],5)

2.2 等频法

##自定义等频法离散化函数
def SameRateCut(data,k):
    w=data.quantile(np.arange(0,1+1.0/k,1.0/k))
    data=pd.cut(data,w)
    return data
result=SameRateCut(detail['amounts'],5).value_counts()   ##菜品售价等频法离散化
print('菜品数据等频法离散化后各个类别数目分布状况为：','\n',result)

2.3 聚类分析法

#自定义数据k-Means聚类离散化函数
def KmeanCut(data,k):
    from sklearn.cluster import KMeans #引入KMeans
    kmodel=KMeans(n_clusters=k)   #建立模型
    kmodel.fit(data.values.reshape((len(data), 1)))    #训练模型
    c=pd.DataFrame(kmodel.cluster_centers_).sort_values(0)   #输出聚类中心并排序
    w=c.rolling(2).mean().iloc[1:]    #相邻两项求中点，作为边界点
    w=[0]+list(w[0])+[data.max()]    #把首末边界点加上
    data=pd.cut(data,w)
    return data
#菜品售价等频法离散化
result=KmeanCut(detail['amounts'],5).value_counts()
print('菜品售价聚类离散化后各个类别数目分布状况为：','\n',result)