2020-08-18 跟着重新学习泰坦尼克号数据加载

最新推荐文章于 2024-04-14 17:17:16 发布

今天我有更博学吗？

最新推荐文章于 2024-04-14 17:17:16 发布

阅读量449

点赞数 1

分类专栏：学习文章标签：数据分析 python

本文链接：https://blog.csdn.net/LYY1045691954/article/details/108081982

版权

本文档是关于重新学习泰坦尼克号数据加载的教程，涵盖使用numpy和pandas导入数据、数据初步观察、逐块读取大文件、更改表头、处理缺失值以及使用pandas进行数据筛选和计算。还介绍了DataFrame和Series的基础知识，以及如何进行排序、计算和探索性数据分析。

摘要由CSDN通过智能技术生成

虽然之前已经做过这套题了，不过很久没碰了
现在再按照datawhale的计划重新学习一下吧

如下是第一、二天的任务

第一章(PART 1)：数据加载
1.1 载入数据
1.1.1 任务一:导入numpy和pandas
1.1.2 任务二:载入数据

用相对路径、绝对路径载入数据

#相对路径：
df = pd.read_csv('train.csv')
#绝对路径
df = pd.read_csv('/Users/xxx/Documents/train.csv')

提示:相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。os.getcwd()作用就是获取当前路径

思考:知道数据加载的方法后，试试pd.read_csv()和pd.read_table()的不同

在这里插入图片描述

如果想让他们效果一样，需要怎么做?

我的办法是修改delimiter

在这里插入图片描述

read_csv和read_table差异和相同之处：
相同之处：
都是是加载带分隔符的数据，每一个分隔符作为一个数据的标志
差异：
读出来的数据格式还是不一样的：
read_table是以制表符 \t 作为数据的标志，也就是以行为单位进行存储。
read_csv是以分隔符号逗号作为数据的标志。

参考：https://blog.csdn.net/qq_43243022/article/details/82978898

了解一下’.tsv’和’.csv’的不同，如何加载这两个数据集?

delimiter参数值默认为半角逗号，即默认将被处理文件视为CSV。
当delimiter=’\t’时，被处理文件就是TSV。

参考：https://blog.csdn.net/wf592523813/article/details/89165015

总结:加载的数据是所有工作的第一步，我们的工作会接触到不同的数据格式(eg:.csv;.tsv;.xlsx),但是加载的方法和思路都是一样的，在以后工作和做项目的过程中，遇到之前没有碰到的问题，要多多查资料吗，使用google，了解业务逻辑，明白输入和输出是什么。

1.1.3 任务三:每1000行为一个数据模块，逐块读取

思考：什么是逐块读取？为什么要逐块读取呢？

更快读文件，看看文件长什么样子。
尽量避免直接对过大的dataframe直接操作(当然有时候没有办法，必须对整体的dataframe进行操作，这时就需要从其他方面优化，比如尽量较少不必要的列，以降低内存消耗)，以从csv文件读取数据为例，可以通过read_csv方法的chunksize参数，设定读取的行数，返回一个固定行数的迭代器，每次读取只消耗相应行数对应的dataframe的内存，从而可以有效的解决内存消耗过多的问题，参考如下demo。

参考：https://blog.csdn.net/S_o_l_o_n/article/details/99761021

1.1.4 任务四:将表头改成中文，索引改为乘客ID