泰坦尼克号 - 从灾难中学习机器学习/Titanic - Machine Learning from Disaster(kaggle竞赛)第三集(数据查看合并与详情)

此次目的:

hello大家好,俺是没事爱瞎捣鼓又分享欲爆棚的叶同学!!!准备出几期博客来记录我学习kaggle数据科学入门竞赛的过程,顺便也将其中所学习到的知识分享出来。(所学主要的内容来自与b站大学恩师“编程教学-Python“的教学视频内容)

1.数据的查看

在处理数据之前,首先需要对数据的基本情况进行了解。以下代码展示了如何查看实验数据集(train)和预测数据集(test)的大小,并展示数据集的前几行内容:

# 分别查看实验数据集和预测数据集
print('训练数据大小', train.shape)
print('预测数据大小', test.shape)
display(train.head(), test.head())
  • train.shapetest.shape:通过调用 .shape 属性,我们可以获取数据集的维度信息(行数和列数),这有助于我们了解数据集的规模。
  • display(train.head(), test.head())head() 函数用于展示数据集的前几行,通常展示前五行。通过这个函数,我们可以快速浏览数据集的结构和内容。

2.数据的合并

在数据分析中,有时候我们需要将训练数据和预测数据合并在一起,以便统一进行数据预处理。以下代码演示了如何将两个数据集合并:

# 将训练数据和预测数据合并,这样便于一起处理
full = train.append(test, ignore_index=True)
full.describe()
  • train.append(test, ignore_index=True)append() 方法将 test 数据集附加到 train 数据集之后。通过设置 ignore_index=True,我们确保合并后的数据集 full 重新索引,以避免索引重复。
  • full.describe()describe() 方法生成描述性统计信息,包括均值、标准差、最小值、四分位数等。这些信息能够帮助我们快速了解数据的分布情况。

3.查看 info() 详情

在数据预处理过程中,了解数据集中的缺失值、数据类型以及内存占用情况非常重要。以下代码通过 info() 方法获取这些信息:

# 查看数据集的详细信息
full.info()

full.info()info() 方法会打印出数据集的简要信息,包括每列的名称、非空值的数量、数据类型(如整数、浮点数、对象类型等)以及整个数据集占用的内存大小。这些信息对于数据清洗和处理非常有帮助,特别是对于大数据集来说。

4.完整代码

#分别查看实验数据集和预测数据集
print('训练数据大小',train.shape)
print('预测数据大小',test.shape)
#将训练数据和预测数据合并,这样便于一起处理
full=train.append(test,ignore_index=True)
full.describe()
full.info()

5.运行结果

6.总结与鼓励哈哈哈哈

今天所学到的有(.shape(),.head(),.append(),.info(),.describe())

注意.describe(),这个词翻译过来的意思就是描述,所以它的功能也是对我们数据集基本信息的描述哈,其中对应着(总和,均值、标准差、最小值、四分位数,最大数)大家要能看懂哈!

然后是.info(),它也是对数据集的描述,它回给出每一列的名称以及数据类型,非空缺值的数量等!

希望大家也好好琢磨,前面这几集还算入门与准备阶段,后面难度会逐渐上升。希望自己和大家都能坚持哈!俺会变得更好(经典每日鼓励自己,“好让日子有盼头”(这句话还是和一个朋友学的)哈哈哈哈哈!!!)加油

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值