类别变量的整数编码：encoding categorical variable to integers

最新推荐文章于 2024-11-04 10:51:20 发布

meta life

最新推荐文章于 2024-11-04 10:51:20 发布

阅读量173

点赞数

分类专栏：短码文章标签： python pandas

本文链接：https://blog.csdn.net/pkuhyd/article/details/117809141

版权

短码专栏收录该内容

6 篇文章 0 订阅

订阅专栏

需求：把 pandas dataframe 中的属于类别或字符串类型的列编码为整数，跳过缺失值

import numpy as np
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder

df = pd.DataFrame({
    'f1': ['a', 'b', 'a', None],
    'f2': ['x', 'y', 'y', 'z']
})

ordinal_enc_dict = {}
for col_name in df.columns:
    ordinal_enc_dict[col_name] = OrdinalEncoder()

    col = df[col_name]
    col_not_null = col[col.notnull()]

    reshaped_vals = col_not_null.values.reshape(-1, 1)
    encoded_vals = ordinal_enc_dict[col_name].fit_transform(reshaped_vals)

    df.loc[col.notnull(), col_name] = np.squeeze(encoded_vals)

print(df)
#      f1 f2
# 0     0  0
# 1     1  1
# 2     0  1
# 3  None  2

for col_name, encoder in ordinal_enc_dict.items():
    print(col_name, encoder.categories_)
# f1 [array(['a', 'b'], dtype=object)]
# f2 [array(['x', 'y', 'z'], dtype=object)]