我一直在使用panda的get_dummies函数来生成用于scikit-learn的分类变量的虚拟列,但注意到它有时无法按我预期的那样工作。
先决条件
import pandas as pd
import numpy as np
from sklearn import linear_model
从sklearn导入大熊猫作为pd导入numpy作为np
假设我们有以下训练和测试集:
训练集
train = pd.DataFrame({"letter":["A", "B", "C", "D"], "value": [1, 2, 3, 4]})
X_train = train.drop(["value"], axis=1)
X_train = pd.get_dummies(X_train)
y_train = train["value"]
train = pd.DataFrame({“字母”:[“ A”,“ B”,“ C”,“ D”],“值”:[1、2、3、4]})