在建模的过程中离散型的字符变量是不能直接用于建模,需要对这些变量进行重编码。重编码的方法有多种,字符型的值转换为整数型的值、哑变量处理(0-1变量)、One-Hot热编码(类似于哑变量)。
1.字符型转数值的方法
处理前的数据集:
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/af589d011089759f99c9d43e1ce5b0a6.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/6a7c5a0841d0c64d0906b6b0fc9e4905.png)
for feature in income.columns:
if income[feature].dtype == 'object':
income[feature] = pd.Categorical(income[feature]).codes
income.head()
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/2fc6248e82b08413aa6f369b244a10e2.png)
经过数值化处理后,字符串分类变量的取值都变成数值型的,看看每个变量的数值类型:
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/2558cf1fac6fcd6e5a8e6e24cf865f4b.png)