在处理真实的数据集的时候,我们经常会遇见一个或多个的类别数据的特征。类别数据可以被分为标称特征(nominal feature)和有序特征(ordinal feature)。有序特征指的是类别的值是有序的或者是可以排序的,例如,衣服的尺码S、M、X、XL、XXL...就是属于有序特征。再例如,衣服的颜色,黑色、蓝色、白色、黄色...这些就属于标称特征。
一、有序特征的映射
我们可以将有序特征装换成为整数,整数包含一定的顺序。没有一个合适的方法可以自动将尺寸特征转换成为正确的顺序,所以我们需要手动来指定相应的映射关系。例如,S:1,M:2,X:3,我们可以利用pandas的map方法来实现。
import pandas as pd
if __name__ == "__main__":
#定义衣服尺寸的映射关系
size_mapping = {"S":1,"M":2,"X":3,"XL":4}
#定义一个DataFrame数据
data = pd.DataFrame([
["green","S",100],
["blue", "M", 110],
["red", &#