一、为什么要进行特征数字化
这是没有进行特征数字化之前的数据
素材类型 广告类型 合作方式 广告尺寸 广告卖点
0 jpg banner roi 140*40 打折
1 jpg banner cpc 140*40 满减
2 jpg banner cpc 140*40 满减
3 jpg banner cpc 140*40 满减
4 jpg banner cpc 140*40 满减
5 jpg banner cpc 140*40 满减
可以看到,这些数据都是文本类型的数据,这是不能够使用K-Means算法进行分析的,
这些文本类型的数据可以看作是分类数据,通过这些数据可以将整个数据集分为不同的类别,不同的类别会以数字进行表示,之后再进行独热编码,将这些数据用0和1进行表示,判断分类变量是否在本类别之中,这防止了分类变量无意义的排序。
二、对数据进行特征数字化
# 引入第三方库
from sklearn.preprocessing import LabelEncoder
# 提取8~12行的数据
y=data.iloc[:,7:12]
# 初始化LableEncoder
le=LabelEncoder()
# 使用数据拟合并转化
for L in y.columns:
y[L]=le.fit_transform(y[L])</