数据分析模型搭建和评估

Lomi222

已于 2022-03-25 05:09:20 修改

阅读量3.4k

点赞数

文章标签：数据分析

于 2022-03-25 01:54:53 首次发布

本文链接：https://blog.csdn.net/Lomi222/article/details/123725985

版权

本文介绍了数据分析模型的搭建和评估过程，包括切割训练集和测试集、模型创建（如逻辑回归、决策树、随机森林）、模型预测结果的输出以及模型评估方法，如交叉验证、混淆矩阵和ROC曲线。通过实例探讨了不同模型的性能和参数调整对结果的影响。

摘要由CSDN通过智能技术生成

第三章模型搭建和评估–建模

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

载入这些库，如果缺少某些库，请安装他们

#这一章新出现的库是ipython
#ipython shell是一个增强版的交互式python解释器，它的设计目的是在交互式计算和软件开发两个方面最大化的提高生产力。
#通过ipython可以对大部分python代码进行探索式的操作，例如使用试错法来练习和学习python中的函数，所以使用ipython将有助于提高你的工作效率。

#安装 ipython
!pip install ipython

%matplotlib inline

载入我们提供清洗之后的数据(clear_data.csv)，大家也将原始数据载入（train.csv），说说他们有什么不同

clear_data =pd.read_csv('clear_data.csv')
clear_data.head(3)

	PassengerId	Pclass	Age	SibSp	Fare	Sex_female	Sex_male	Embarked_C	Embarked_S
0	0	3	22.0	1	7.2500	0	1	0	1
1	1	1	38.0	1	71.2833	1	0	1	0
2	2	3	26.0	0	7.9250	1	0	0	1

#写入代码
train_data =pd.read_csv('train.csv')
train_data.head(3)

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S

#写入代码
c_data.shape

(891, 11)

train_data.shape

(891, 12)

模型搭建

处理完前面的数据我们就得到建模数据，下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
模型的选择一方面是通过我们的任务来决定的。
除了根据我们任务来选择模型外，还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型

这里我的建模，并不是从零开始，自己一个人完成完成所有代码的编译。我们这里使用一个机器学习最常用的一个库（sklearn）来完成我们的模型的搭建

任务一：切割训练集和测试集

这里使用留出法划分数据集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现

任务提示1

切割数据集是为了后续能评估模型泛化能力
sklearn中切割数据集的方法为train_test_split
查看函数文档可以在jupyter noteboo里面使用train_test_split?后回车即可看到
分层和随机种子在参数里寻找

要从clear_data.csv和train.csv中提取train_test_split()所需的参数

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用,x是清洗好的数据，y是我们要预测的存活数据'Survived'
X = clear_data
y = train_data['Survived']

# 对数据集进行切割
#设置训练集为0.8
#设置random_state为整数
# random_state：是随机数的种子。
# 随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。
#比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。
X_train,

最低0.47元/天解锁文章

Lomi222

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
数据分析模型搭建和评估

第三章模型搭建和评估–建模import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display import Image%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']
复制链接

扫一扫