[DataWhale]动手学数据分析Task05：模型建立及评估

最新推荐文章于 2021-12-23 20:39:33 发布

MaxQuYY

最新推荐文章于 2021-12-23 20:39:33 发布

阅读量199

点赞数

分类专栏：动手学数据分析跟练文章标签： python 数据分析

本文链接：https://blog.csdn.net/MaxQuYY/article/details/118892330

版权

本文详细介绍了从特征工程到模型评估的整个流程，包括缺失值填充、分类变量编码、数据集切割、模型创建（如逻辑回归、随机森林）、交叉验证、混淆矩阵和ROC曲线等关键步骤。通过实例探讨了如何处理分类任务中的各种问题，并提供了相应的代码示例和思考题。

摘要由CSDN通过智能技术生成

import pandas as pd
import numpy as np#高性能多维数组矢量运算库
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import Image
#IPython.display模块中提供了许多显示Python返回值的类，此处用Image类

IPython详细介绍

%matplotlib inline
#当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候，或者生成一个figure画布的时候，
#可以直接在你的python console里面生成图像。

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

# 读取训练数集
train = pd.read_csv(r'C:\Users\maxqu\Desktop\动手学数据分析\hands-on-data-analysis-master\第三章项目集合\train.csv')
train.shape#注意此处不需要加(),加括号会报错：'tuple' object is not callable

此处是已经数据处理后的表格数据

1.1 特征工程

数据预处理阶段，包含缺失值处理

1.1.1 任务一：缺失值填充

对分类变量缺失值：填充某个缺失值字符(NA)、用最多类别的进行填充

对连续变量缺失值：填充均值、中位数、众数

# 对分类变量进行填充，根据观察表中数据发现Cabin列和Embarked列存在缺失值
train['Cabin'] = train['Cabin'].fillna('NA')#fillna的功能是填充缺失值
train['Embarked'] = train['Embarked'].fillna('S')

fillna方法的详细使用

# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())

# 检查缺失值比例---最好在数据处理之前和之后分别检查一次缺失值的情况
train.isnull().sum().sort_values(ascending=False)
#先判断空值，再去看空值的总个数，最后按照空值个数从大到小排列

1.1.2 任务二：编码分类变量

大多数模型要求所有输入和输出变量均为数字。

这意味着，如果数据包含分类数据，则必须先将其编码为数字，然后才能拟合和评估模型。

# 取出所有的输入特征
data = train[['Pclass','Sex','Age','SibSp','Parch','Fare', 'Embarked']]

# 进行虚拟变量转换
data = pd.get_dummies(data)#get_dummies方法是实现one-hot编码的方法
data.head()

get_dummies方法的具体运用

1.2 模型搭建

处理完前面的数据我们就得到建模数据，下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
除了根据我们任务来选择模型外，还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型

思考0

数据集哪些差异会导致模型在拟合数据是发生变化

最低0.47元/天解锁文章

MaxQuYY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[DataWhale]动手学数据分析Task05：模型建立及评估

主要学习Python数据可视化库Matplotlib；数据可视化可以更好的看到每一个关键步骤的结果如何，可以用来优化方案，是一个很有用的技巧。# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as p
复制链接

扫一扫