python 计算DataFrame的数值变量及离散变量，并标准化

温蒂陈

已于 2024-04-19 15:02:41 修改

阅读量943

点赞数

分类专栏：数据挖掘文章标签： python pandas 机器学习

于 2021-01-26 14:48:50 首次发布

本文链接：https://blog.csdn.net/chensq_yinhai/article/details/113180184

版权

数据挖掘专栏收录该内容

39 篇文章 1 订阅

订阅专栏

## 区分DataFrame里面的数值变量和离散变量
## DataFrame_data：待处理的DataFrame类型的变量
## O_index:数值型变量列名
## C_index：离散型变量的列名
def distinguish_Char_Num(DataFrame_data):
    import copy 
    m, n = DataFrame_data.shape
    ## 存放数值型变量所在的列
    O = []
    ## 存放离散型变量所在的列
    C = []
    data = copy.deepcopy(DataFrame_data) 
    for i in range(n):
        try:
            if isinstance(data.iloc[0, i], int) or isinstance(data.iloc[0, i], float) or isinstance(data.iloc[0, i], np.int64 ) or isinstance(data.iloc[0, i], np.int32):
                O.append(i)
            elif isinstance(data.iloc[0, i], str):
                C.append(i)
            else:
                raise ValueError("the %d column of data is not a number or a string column" % i)
        except TypeError as e:
            print(e)
    # 数值型变量
    O_data = copy.deepcopy(data.iloc[:, O])
    # 分类型变量
    C_data = copy.deepcopy(data.iloc[:, C])
    ##  数值型变量的列名
    O_index = O_data.columns.tolist()
    ## 分类型变量的列名
    C_index = C_data.columns.tolist()
    return   O_index , C_index

## 对离散变量进行标签化处理，对数值型变量进行归一化处理
## sample_X: 返回整合好的DataFrame类型的变量        
def DataIntegration(DataFrame_data):
    import copy
    from sklearn.preprocessing import LabelEncoder
    sample_X = copy.deepcopy(DataFrame_data)
    O_index , C_index = distinguish_Char_Num(DataFrame_data)
    ## 数值型变量标准化
    sample_X[O_index] = 1.0*(sample_X[O_index] - sample_X[O_index].min())/(sample_X[O_index].max() - sample_X[O_index].min()) 
    ## 离散变量标签化
    for i in range(len(C_index)):
        sample_X[C_index[i]] = LabelEncoder().fit_transform(sample_X[C_index[i]]) 
    return sample_X

温蒂陈

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python 计算DataFrame的数值变量及离散变量，并标准化

## 区分DataFrame里面的数值变量和离散变量## DataFrame_data：待处理的DataFrame类型的变量## O_index:数值型变量列名## C_index：离散型变量的列名def distinguish_Char_Num(DataFrame_data): import copy m, n = DataFrame_data.shape ## 存放数值型变量所在的列 O = [] ## 存放离散型变量所在的列 C = []
复制链接

扫一扫

专栏目录