机器学习——特征工程（实战）

最新推荐文章于 2024-08-14 10:25:29 发布

白日梦想家_胖七七

最新推荐文章于 2024-08-14 10:25:29 发布

阅读量1.4k

点赞数

分类专栏：机器学习 python 深度学习模型预测文章标签： python 机器学习

本文链接：https://blog.csdn.net/qq_38029916/article/details/124196326

版权

python 同时被 3 个专栏收录

47 篇文章 4 订阅

订阅专栏

机器学习

20 篇文章 0 订阅

订阅专栏

深度学习模型预测

9 篇文章 1 订阅

订阅专栏

本文介绍了如何在机器学习中使用one-hot编码处理类别字段，如将动物类别转换为数字，并展示了如何对数字列进行去均值和方差归一化以提升模型性能。通过实例演示了OneHotEncoder和StandardScaler的应用，最后合并了类别特征和数值特征以准备模型输入。

摘要由CSDN通过智能技术生成

onehot编码——类别字段

机器学习中，对于一些类别字段，计算机是不能直接进行识别的。例如某个数据集中，动物类别分为cat、dog、turtle、fish等，可以通过onehot编码将其转换成计算机所能识别的数字。

pet

cat

dog

turtle

fish

cat

cat	dog	turtle	fish
1	0	0	0
0	1	0	0
0	0	1	0
0	0	0	1
1	0	0	0

#分类字段处理
df = pd.readcsv('d:/1.csv')
cat_columns = ["cat","dog","turtle","fish"]   #需要进行one-hot编码的分类字段的名字
from sklearn.preprocessing import OneHotEncoder   #导入包
oneHotEncoder = OneHotEncoder(drop = 'first')  #删除每一组独热变量中的第一列变量（通常用于防止线性回归出现多重共线性的问题）
cat_features = oneHotEncoder.fit_transform(df[cat_columns]).toarray()   #将数据中的类别特征进行训练。

数字列——去均值和方差归一化

目的：加快求解速度，提升预估精度

方案：（X-mean）/std

num_columns=["1","2","3","4"]   #数值列名
from sklearn.preprocessing import StandardScaler  #导入数据包
standardScaler = StandardScaler()   #创建一个标准化的对象
num_features = standardScaler.fit_transform(df[num_columns]) #对数值列进行标准化

将类别特征和数值特征进行拼接

X = np.hstack([cat_features,num_features])

白日梦想家_胖七七

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录