sklearn中只能对数值进行处理,对于文字等其他数据需要进行编码与哑变量
编码:将文字等格式转换为数字,如小学,中学,大学,转换为 0 ,1 ,2
对标签进行编码
sklearn中编码使用:
import pandas as pd
data = pd.read_excel("C:/Users/ASUS/Desktop/学生表.xlsx")
上述数据中,性别,省份可进行编码
sklearn中使用preprocessing中LabelEncoder模块对特征一列中的标签进行编码
import numpy as np
from sklearn.preprocessing import LabelEncoder
y = data["省份"] #选择需要数据,labelencoder允许一维数据
le = LabelEncoder() #实列化
ls = le.fit_transform(y) #模型训练
ls