机器学习模型搭建与评估-CSDN博客

本文链接：https://blog.csdn.net/fightinglearning/article/details/108287263

DW模型搭建和评估

经过前面的探索性数据分析、数据清洗重构可视化后，我们可以很清楚的了解到数据集的情况，下面我们进一步探索模型搭建和模型评估。

from IPython.display import Image  #调用Image
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

特征工程

缺失值填充（清洗）

对分类变量缺失值：填充某个缺失值字符(NA)、用最多类别的进行填充
对连续变量缺失值：填充均值、中位数、众数

# 对分类变量进行填充
train['Cabin'] = train['Cabin'].fillna('NA')
train['Embarked'] = train['Embarked'].fillna('S')

# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())

# 检查缺失值比例
train.isnull().mean().sort_values(ascending=False)

编码分类变量（重构）

# 取出所有的输入特征
data = train[['Pclass','Sex','Age','SibSp','Parch','Fare', 'Embarked']]
data.head(3)

"""# 进行虚拟变量转换 
将非数值型变量写成数值型 增加了多列
"""
data = pd.get_dummies(data) 
data.head(3)

	Pclass	Age	SibSp	Parch	Fare	Sex_female	Sex_male	Embarked_C	Embarked_Q	Embarked_S
0	3	22.0	1	0	7.2500