动手学数据分析：数据建模和评估Task05

最新推荐文章于 2024-05-14 18:30:06 发布

都怪年少太轻狂づ

最新推荐文章于 2024-05-14 18:30:06 发布

阅读量305

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_45186187/article/details/118150000

版权

本文介绍了数据建模和评估的过程，包括数据集的切割、模型创建与训练、模型评估方法如交叉验证、精确率、召回率、F分数、混淆矩阵以及ROC曲线的绘制。重点讲解了如何使用sklearn库中的各种模型（如逻辑回归、决策树、随机森林）和评估工具，强调了模型泛化能力和选择合适评估指标的重要性。

摘要由CSDN通过智能技术生成

1 建模建立和评估

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

载入我们提供清洗之后的数据(clear_data.csv)，大家也将原始数据载入（train.csv）

#加载数据clear_data.csv
data=pd.read_csv('clear_data.csv')
print(data.shape)
data.info()

(891, 11)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Pclass       891 non-null    int64  
 2   Age          891 non-null    float64
 3   SibSp        891 non-null    int64  
 4   Parch        891 non-null    int64  
 5   Fare         891 non-null    float64
 6   Sex_female   891 non-null    int64  
 7   Sex_male     891 non-null    int64  
 8   Embarked_C   891 non-null    int64  
 9   Embarked_Q   891 non-null    int64  
 10  Embarked_S   891 non-null    int64  
dtypes: float64(2), int64(9)
memory usage: 76.7 KB

#加载数据train.csv
train=pd.read_csv('train.csv')
print(train.shape)
train.info()

(891, 12)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

1.1模型搭建

下面给出sklearn的算法选择路径，供大家参考

# sklearn模型算法选择路径图
Image('sklearn.png')

在这里插入图片描述

切割训练集和测试集

这里使用留出法划分数据集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现

提示

切割数据集是为了后续能评估模型泛化能力
sklearn中切割数据集的方法为train_test_split
查看函数文档可以在jupyter noteboo里面使用train_test_split?后回车即可看到
分层和随机种子在参数里寻找

要从clear_data.csv和train.csv中提取train_test_split()所需的参数

#导入库
from sklearn.model_selection import train_test_split

X=data               #数据
y=train['Survived']   #预测标签

#数据集切分

#stratify是为了保持split前类的分布，将stratify=y就是按照y中的比例分配 

X_t

最低0.47元/天解锁文章

都怪年少太轻狂づ

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
动手学数据分析：数据建模和评估Task05

1 建模建立和评估import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display import Image%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = Fa
复制链接

扫一扫