类别属性转数值类型方法集

最新推荐文章于 2023-05-12 17:31:16 发布

咖喱东东

最新推荐文章于 2023-05-12 17:31:16 发布

阅读量747

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_39410381/article/details/102764241

版权

机器学习专栏收录该内容

9 篇文章 6 订阅

订阅专栏

1 设置测试数据集

df_test = pd.DataFrame({
'sex':['man','man','woman','man','woman','man'],
'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],
'where':['bj','bj','sh','bj','cd','cd'],
'play':['game','game','ball','game','game','ball']
})
df_test

2 方法

2.1 Label encoding

将列中每种取值对应成一个数字，有多少种取值就有多少种数字

缺点：会出现等级差，比如 1<3

from sklearn.preprocessing import LabelEncoder
X = df_test.copy()
label = LabelEncoder()
for c in X.columns:
    if (X[c].dtype == 'object'):
        X[c]=label.fit_transform(X[c])
X

2.2 One Hot Encoder

将分类特征的每个元素转化为一个可以用来计算的值

优点：解决2.1问题

缺点：出现稀疏矩阵

from sklearn.preprocessing import OneHotEncoder
X = df_test.copy()
one=OneHotEncoder()

one.fit(X)
X = one.transform(X)

print(X.toarray())

2.3 get_dummies

将每列的所有属性取值设成一列，取0或1

优点：解决2.1问题，效果通2.2，但代码简单

缺点：出现稀疏矩阵

X = df_test.copy()
X = pd.get_dummies(X)
X

2.4 FeatureHasher

X = df_test.copy()
for c in X.columns:
    X[c] = X[c].astype('str')
hashing = FeatureHasher(input_type='string')
X = hashing.transform(X.values)
X.data

咖喱东东

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
类别属性转数值类型方法集

1 设置测试数据集df_test = pd.DataFrame({'sex':['man','man','woman','man','woman','man'],'name':['Alice','Bob','Cindy','Eric','Helen','Grace '],'where':['bj','bj','sh','bj','cd','cd'],'play':['game','...
复制链接

扫一扫