2020.08.28 Datewhale组队学习数据分析05 模型建立及评估

最新推荐文章于 2024-04-30 03:13:08 发布

Zylen

最新推荐文章于 2024-04-30 03:13:08 发布

阅读量468

点赞数

分类专栏： python数据分析 Python基础学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/akimotoyoshihiko/article/details/108275877

版权

本文介绍了机器学习模型的搭建过程，包括切割训练集和测试集，建立线性模型和树模型，并输出预测结果。接着，文章深入讨论了模型评估，通过交叉验证评估泛化能力，使用混淆矩阵分析分类效果，并探讨了绘制ROC曲线的重要性。

摘要由CSDN通过智能技术生成

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['figure.figsize'] = (10, 6)

train = pd.read_csv('train.csv')
train.shape
train.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

data = pd.read_csv('clear_data.csv')
data.head()
# print(data.shape)

	PassengerId	Pclass	Age	SibSp	Fare	Sex_female	Sex_male	Embarked_C	Embarked_S
0	0	3	22.0	1	7.2500	0	1	0	1
1	1	1	38.0	1	71.2833	1	0	1	0
2	2	3	26.0	0	7.9250	1	0	0	1
3	3	1	35.0	1	53.1000	1	0	0	1
4	4	3	35.0	0	8.0500	0	1	0	1

将数据集分为自变量和因变量

按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)

使用分层抽样

设置随机种子以便结果能复现

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用,x是清洗好的数据，y是我们要预测的存活数据'Survived'
X = data
y = train['Survived']

# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify = y, random_state = 0)
X_train.shape, X_test.shape

关注

专栏目录

2020.08.28 Datewhale组队学习 数据分析05 模型建立及评估