数据分析项目基于K-Means算法的广告聚类分析（4）----特征数字化：独热编码（One-Hot）

最新推荐文章于 2023-03-14 11:24:17 发布

Deep,dark,fantasy

最新推荐文章于 2023-03-14 11:24:17 发布

阅读量1.3k

点赞数

分类专栏：数据分析项目文章标签： python 数据分析机器学习

本文链接：https://blog.csdn.net/qq_43709590/article/details/115741415

版权

一、为什么要进行特征数字化

这是没有进行特征数字化之前的数据

    素材类型    广告类型 合作方式     广告尺寸 广告卖点
0    jpg  banner  roi   140*40   打折
1    jpg  banner  cpc   140*40   满减
2    jpg  banner  cpc   140*40   满减
3    jpg  banner  cpc   140*40   满减
4    jpg  banner  cpc   140*40   满减
5    jpg  banner  cpc   140*40   满减

可以看到，这些数据都是文本类型的数据，这是不能够使用K-Means算法进行分析的，
这些文本类型的数据可以看作是分类数据，通过这些数据可以将整个数据集分为不同的类别，不同的类别会以数字进行表示，之后再进行独热编码，将这些数据用0和1进行表示，判断分类变量是否在本类别之中，这防止了分类变量无意义的排序。

二、对数据进行特征数字化

# 引入第三方库
from sklearn.preprocessing import LabelEncoder
# 提取8~12行的数据
y=data.iloc[:,7:12]
# 初始化LableEncoder
le=LabelEncoder()
# 使用数据拟合并转化
for L in y.columns:
    y[L]=le.fit_transform(y[L])</

最低0.47元/天解锁文章

Deep,dark,fantasy

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
数据分析项目基于K-Means算法的广告聚类分析（4）----特征数字化：独热编码（One-Hot）

一、为什么要进行特征数字化这是没有进行特征数字化之前的数据素材类型广告类型合作方式广告尺寸广告卖点0 jpg banner roi 140*40 打折1 jpg banner cpc 140*40 满减2 jpg banner cpc 140*40 满减3 jpg banner cpc 140*40 满减4 jpg banner cpc 140*40 满减5 jpg
复制链接

扫一扫