机器学习的开发基本流程:
1、数据加载
使用pandas函数
# 查看数据类型/缺失情况
df.info()
# 查看数据的分布
df.describe()
# 目标值类别占比,做统计
df['目标名称'].value_counts()
2、数据基本处理
空值,异常值,缺失值的处理
# 一次性计算所有列的缺失情况
df.isnull().sum()
# 删除缺失值
df.dropna()
# 填充缺失值
df.fillna()
3、特征工程
我们做特征工程的最终目标是模型表现要超过基线模型,目的是挑选/构造出区分度好和目标相关性强/ 对目标值的区分能力比较强的特征。
特征编码
# one-hot编码
pd.get_dummies()
# 顺序编码
skearn labelEncoder()
特征筛选
特征降维
# 删除低方差特征
from sklearn.feature_selection import VarianceThreshold
特征缩放
# 归一化
from sklearn.preprocessing import MinMaxScaler
# 标准化
from sklearn.preprocessing import StandardScaler
特征的系数:df.corr()
关于集成学习输出特征重要性feature_importance<

本文详细介绍了机器学习开发的基本流程,包括数据加载与处理、特征工程(编码、筛选、降维和缩放)、模型训练(划分数据、超参数调优)、以及模型评估(精度、召回率、AUC等指标)的各个环节。
最低0.47元/天 解锁文章
1487

被折叠的 条评论
为什么被折叠?



