【DW组队学习—动手学数据分析】第三章：模型建立和评估--建模

最新推荐文章于 2024-01-17 10:50:34 发布

VIP文章 0_×

最新推荐文章于 2024-01-17 10:50:34 发布

阅读量249

点赞数

分类专栏： DW组队学习数据分析 Python 文章标签：数据分析学习 python

本文链接：https://blog.csdn.net/sinat_33209811/article/details/127002363

版权

第三章模型搭建和评估–建模

经过前面的两章的知识点的学习，我可以对数据的本身进行处理，比如数据本身的增删查补，还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据，我们做数据分析的目的也就是，运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模，搭建一个预测模型或者其他模型；我们从这个模型的到结果之后，我们要分析我的模型是不是足够的可靠，那我就需要评估这个模型。今天我们学习建模，下一节我们学习评估。

我们拥有的泰坦尼克号的数据集，那么我们这次的目的就是，完成泰坦尼克号存活预测这个任务。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

%matplotlib inline 
#将图内嵌在notebook中

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

载入这些库，如果缺少某些库，请安装他们

【思考】这些库的作用是什么呢？你需要查一查

思考题回答：

NumPy（Numerical Python）：是Python的一种开源的数值计算扩展。可用来存储和处理大型矩阵，比Python自身的嵌套列表（nested list structure)结构要高效的多（该结构也可以用来表示矩阵（matrix）），支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。
Pandas：是基于NumPy 的一种工具，是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
matplotlib: 最流行的Python底层绘图库，主要做数据可视化图表,名字取材于MATLAB，模仿MATLAB构建。能将数据进行可视化，更直观的呈现；使数据更加客观、更具说服力
Seaborn：是python中的一个可视化库，是对matplotlib进行二次封装而成，既然是基于matplotlib，所以seaborn的很多图表接口和参数设置与其很是接近

#使用%matplotlib命令可以将matplotlib的图表直接嵌入到Notebook之中，
#或者使用指定的界面库显示图表，它有一个参数指定matplotlib图表的显示方式。inline表示将图表嵌入到Notebook中。
%matplotlib inline

载入我们提供清洗之后的数据(clear_data.csv)，大家也将原始数据载入（train.csv），说说他们有什么不同

#写入代码
clear_data = pd.read_csv("clear_data.csv")
clear_data.head()

	PassengerId	Pclass	Age	SibSp	Fare	Sex_female	Sex_male	Embarked_C	Embarked_S
0	0	3	22.0	1	7.2500	0	1	0	1
1	1	1	38.0	1	71.2833	1	0	1	0
2	2	3	26.0	0	7.9250	1	0	0	1
3	3	1	35.0	1	53.1000	1	0	0	1
4	4	3	35.0	0	8.0500	0	1	0	1

clear_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Pclass       891 non-null    int64  
 2   Age          891 non-null    float64
 3   SibSp        891 non-null    int64  
 4   Parch        891 non-null    int64  
 5   Fare         891 non-null    float64
 6   Sex_female   891 non-null    int64  
 7   Sex_male     891 non-null    int64  
 8   Embarked_C   891 non-null    int64  
 9   Embarked_Q   891 non-null    int64  
 10  Embarked_S   891 non-null    int64  
dtypes: float64(2), int64(9)
memory usage: 76.7 KB

#写入代码
train_data = pd.read_csv("train.csv")
train_data.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

可以发现，清洗后的数据与原始数据相比，主要有以下几点不同：

删除了Name、Ticket、Cabin3列数据，这3列无论是在信息价值较低，对后续的数据分析鲜有助力
将Sex、Embarked列进行了one-hot编码
通过查看两组数据的大小，发现数据条数没有发生变化，故对数据缺失值进行了填充操作而非删除。
Survived列作为预测目标，预先删除

【总结】缺失值填充
对分类变量缺失值：填充某个缺失值字符(NA)、用最多类别的进行填充
对连续变量缺失值：填充均值、中位数、众数

#写入代码
del train_data["Name"]
del train_data["Ticket"]
del train_data["Cabin"]
del train_data["Survived"]
train_data.head()

	PassengerId

最低0.47元/天解锁文章

0_×

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【DW组队学习—动手学数据分析】第三章：模型建立和评估--建模

【DW组队学习—动手学数据分析】第三章：模型建立和评估--建模
复制链接

扫一扫

专栏目录

【DW组队学习—动手学数据分析】第三章：模型建立和评估--建模

第三章 模型搭建和评估–建模

“相关推荐”对你有帮助么？

第三章模型搭建和评估–建模