今日锦囊
特征锦囊:对有序类别特征进行映射处理
🚅 Index
直接上代码
🎯 直接上代码
有些算法对有序分类变量(ordinal feature)的解释还是不行的,我们需要将其转为整型数值。unfortunately,并没有能够直接调用的方法来自动得到正确顺序的有序分类变量。因此,我们要自己定义映射函数,把带有“顺序属性”的类别变量进行映射,转化成数值型变量。比如下面的案例,这4个变量(特征)中,【尺寸】就是有序分类变量,因为尺码虽然是类别变量,但是其实这些字母是有大小区分的。
import pandas as pd
df = pd.DataFrame([['green', 'M', 10.1, 'new balance'],
['red', 'L', 13.5, 'Nike'],
['blue', 'XL', 15.3, 'new balance']])
df.columns = ['颜色', '尺寸', '单价', '牌子']
df
size_mapping = {'XL': 3,
'L': 2,
'M': 1}
df['尺寸'] = df['尺寸'].map(size_mapping)
df
# 反映射字典
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['尺寸'] = df['尺寸'].map(inv_size_mapping)
df
广而告之
PICK ME
朋友们,阿Sam这边也开通了小红书账号,也会定期发布一些机器学习、风控挖掘、特征工程等相关工程(几乎日更哦),欢迎大家也关注关注,哈哈~