此次目的:
hello大家好,俺是没事爱瞎捣鼓又分享欲爆棚的叶同学!!!准备出几期博客来记录我学习kaggle数据科学入门竞赛的过程,顺便也将其中所学习到的知识分享出来。(所学主要的内容来自与b站大学恩师“编程教学-Python“的教学视频内容)
1.数据的查看
在处理数据之前,首先需要对数据的基本情况进行了解。以下代码展示了如何查看实验数据集(train
)和预测数据集(test
)的大小,并展示数据集的前几行内容:
# 分别查看实验数据集和预测数据集
print('训练数据大小', train.shape)
print('预测数据大小', test.shape)
display(train.head(), test.head())
train.shape
和test.shape
:通过调用.shape
属性,我们可以获取数据集的维度信息(行数和列数),这有助于我们了解数据集的规模。display(train.head(), test.head())
:head()
函数用于展示数据集的前几行,通常展示前五行。通过这个函数,我们可以快速浏览数据集的结构和内容。
2.数据的合并
在数据分析中,有时候我们需要将训练数据和预测数据合并在一起,以便统一进行数据预处理。以下代码演示了如何将两个数据集合并:
# 将训练数据和预测数据合并,这样便于一起处理
full = train.append(test, ignore_index=True)
full.describe()
train.append(test, ignore_index=True)
:append()
方法将test
数据集附加到train
数据集之后。通过设置ignore_index=True
,我们确保合并后的数据集full
重新索引,以避免索引重复。full.describe()
:describe()
方法生成描述性统计信息,包括均值、标准差、最小值、四分位数等。这些信息能够帮助我们快速了解数据的分布情况。
3.查看 info()
详情
在数据预处理过程中,了解数据集中的缺失值、数据类型以及内存占用情况非常重要。以下代码通过 info()
方法获取这些信息:
# 查看数据集的详细信息
full.info()
full.info()
:info()
方法会打印出数据集的简要信息,包括每列的名称、非空值的数量、数据类型(如整数、浮点数、对象类型等)以及整个数据集占用的内存大小。这些信息对于数据清洗和处理非常有帮助,特别是对于大数据集来说。
4.完整代码
#分别查看实验数据集和预测数据集
print('训练数据大小',train.shape)
print('预测数据大小',test.shape)
#将训练数据和预测数据合并,这样便于一起处理
full=train.append(test,ignore_index=True)
full.describe()
full.info()
5.运行结果
6.总结与鼓励哈哈哈哈
今天所学到的有(.shape(),.head(),.append(),.info(),.describe())
注意.describe(),这个词翻译过来的意思就是描述,所以它的功能也是对我们数据集基本信息的描述哈,其中对应着(总和,均值、标准差、最小值、四分位数,最大数)大家要能看懂哈!
然后是.info(),它也是对数据集的描述,它回给出每一列的名称以及数据类型,非空缺值的数量等!
希望大家也好好琢磨,前面这几集还算入门与准备阶段,后面难度会逐渐上升。希望自己和大家都能坚持哈!俺会变得更好(经典每日鼓励自己,“好让日子有盼头”(这句话还是和一个朋友学的)哈哈哈哈哈!!!)加油