导入库和数据
df = pd.read_csv(r'C:/Users/11257/Desktop\Example.csv') # 读入数据(csv文件)
print(df) # 查看数据
代码运行结果如下:
第一列和第二列数据为数值型,第三列和第四列数据为分类型(字符串型)。
我们需要将分类型数据通过独热编码转换为数值型。
# 使用get_dummies函数对DataFrame中的某一列进行独热编码
new_df = df.iloc[:, 0:2] # 创建一个数据框,用于放独热编码后的数据
print(new_df) # 查看创建的数据框
代码运行结果如下:
i = 2 # 将第三列和第四列转换为独热编码
while i < 4:
encoded_data = pd.get_dummies(df.iloc[:, i]) # 使用pd.get_dummies()函数对df的第i列进行独热编码,并将结果赋给encoded_data
new_df = new_df.iloc[:].join(encoded_data) # 将独热编码的结果与new_df进行列合并,并将结果重新赋给new_df
i += 1
print(new_df) # 输出独热编码后的结果
代码运行结果如下: