Kaggle从零入门学习笔记-7.Categorical Variables(分类变量)

最新推荐文章于 2022-09-24 23:05:25 发布

Hello world\t

最新推荐文章于 2022-09-24 23:05:25 发布

阅读量672

点赞数 2

分类专栏：笔记文章标签： python 机器学习 kaggle

本文链接：https://blog.csdn.net/qq_47180755/article/details/120400253

版权

笔记专栏收录该内容

9 篇文章 2 订阅

订阅专栏

上一篇：6.缺失值
当有一个人问你吃早餐的频率，可以回答“从不”“经常”“偶尔”等，那么这些怎么转换成数字？这就是分类变量的作用。要处理这些文字信息，有三种方法
先找到分类变量

# Get list of categorical variables
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)

print("Categorical variables:")
print(object_cols)

定义一个函数

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# Function for comparing different approaches
def score_dataset(X_train, X_valid, y_train, y_valid):
    model = RandomForestRegressor(n_estimators=100, random_state=0)
    model.fit(X_train, y_train)
    preds = model.predict(X_valid)
    return mean_absolute_error(y_valid, preds)

1.直接去掉

drop_X_train = X_train.select_dtypes(exclude=['object'])
drop_X_valid = X_valid.select_dtypes(exclude=['object'])

用到的函数：
DataFrame.select_dtypes(include=None, exclude=None)
2.ordinal encoding 序数编码

from sklearn.preprocessing import OrdinalEncoder

# Make copy to avoid changing original data 
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()

# Apply ordinal encoder to each column with categorical data
ordinal_encoder = OrdinalEncoder()
label_X_train[object_cols] = ordinal_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols] = ordinal_encoder.transform(X_valid[object_cols])

3.One-Hot Encoding独热编码
用0 和1 表示一个属性的有无

from sklearn.preprocessing import OneHotEncoder

# Apply one-hot encoder to each column with categorical data
OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[object_cols]))
OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[object_cols]))

# One-hot encoding removed index; put it back
OH_cols_train.index = X_train.index
OH_cols_valid.index = X_valid.index

# Remove categorical columns (will replace with one-hot encoding)
num_X_train = X_train.drop(object_cols, axis=1)
num_X_valid = X_valid.drop(object_cols, axis=1)

# Add one-hot encoded columns to numerical features
OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1)
OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1)

print("MAE from Approach 3 (One-Hot Encoding):") 
print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid))

一般情况下，第三种方法效果最好