泰坦尼克号 - 从灾难中学习机器学习/Titanic - Machine Learning from Disaster（kaggle竞赛）第三集（数据查看合并与详情）

Traveller_man

已于 2024-08-28 08:54:02 修改

阅读量812

点赞数 26

分类专栏：数据科学竞赛文章标签：学习机器学习人工智能

于 2024-08-18 14:25:29 首次发布

本文链接：https://blog.csdn.net/Traveller_man/article/details/141299031

版权

数据科学竞赛专栏收录该内容

6 篇文章 0 订阅

订阅专栏

此次目的：

hello大家好，俺是没事爱瞎捣鼓又分享欲爆棚的叶同学！！！准备出几期博客来记录我学习kaggle数据科学入门竞赛的过程，顺便也将其中所学习到的知识分享出来。（所学主要的内容来自与b站大学恩师“编程教学-Python“的教学视频内容）

1.数据的查看

在处理数据之前，首先需要对数据的基本情况进行了解。以下代码展示了如何查看实验数据集（train）和预测数据集（test）的大小，并展示数据集的前几行内容：

# 分别查看实验数据集和预测数据集
print('训练数据大小', train.shape)
print('预测数据大小', test.shape)
display(train.head(), test.head())

train.shape 和 test.shape：通过调用 .shape 属性，我们可以获取数据集的维度信息（行数和列数），这有助于我们了解数据集的规模。
display(train.head(), test.head())：head() 函数用于展示数据集的前几行，通常展示前五行。通过这个函数，我们可以快速浏览数据集的结构和内容。

2.数据的合并

在数据分析中，有时候我们需要将训练数据和预测数据合并在一起，以便统一进行数据预处理。以下代码演示了如何将两个数据集合并：

# 将训练数据和预测数据合并，这样便于一起处理
full = train.append(test, ignore_index=True)
full.describe()

train.append(test, ignore_index=True)：append() 方法将 test 数据集附加到 train 数据集之后。通过设置 ignore_index=True，我们确保合并后的数据集 full 重新索引，以避免索引重复。
full.describe()：describe() 方法生成描述性统计信息，包括均值、标准差、最小值、四分位数等。这些信息能够帮助我们快速了解数据的分布情况。

3.查看 `info()` 详情

在数据预处理过程中，了解数据集中的缺失值、数据类型以及内存占用情况非常重要。以下代码通过 info() 方法获取这些信息：

# 查看数据集的详细信息
full.info()

full.info()：info() 方法会打印出数据集的简要信息，包括每列的名称、非空值的数量、数据类型（如整数、浮点数、对象类型等）以及整个数据集占用的内存大小。这些信息对于数据清洗和处理非常有帮助，特别是对于大数据集来说。

4.完整代码

#分别查看实验数据集和预测数据集
print('训练数据大小',train.shape)
print('预测数据大小',test.shape)
#将训练数据和预测数据合并，这样便于一起处理
full=train.append(test,ignore_index=True)
full.describe()
full.info()