2020-08-18 跟着重新学习泰坦尼克号 数据加载

本文档是关于重新学习泰坦尼克号数据加载的教程,涵盖使用numpy和pandas导入数据、数据初步观察、逐块读取大文件、更改表头、处理缺失值以及使用pandas进行数据筛选和计算。还介绍了DataFrame和Series的基础知识,以及如何进行排序、计算和探索性数据分析。
摘要由CSDN通过智能技术生成

虽然之前已经做过这套题了,不过很久没碰了
现在再按照datawhale的计划重新学习一下吧

如下是第一、二天的任务

第一章(PART 1):数据加载
1.1 载入数据
1.1.1 任务一:导入numpy和pandas
1.1.2 任务二:载入数据

用相对路径、绝对路径载入数据

#相对路径:
df = pd.read_csv('train.csv')
#绝对路径
df = pd.read_csv('/Users/xxx/Documents/train.csv')

提示:相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。os.getcwd()作用就是获取当前路径

思考:知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同

在这里插入图片描述

如果想让他们效果一样,需要怎么做?

我的办法是修改delimiter

在这里插入图片描述

read_csv和read_table差异和相同之处:
相同之处:
都是是加载带分隔符的数据,每一个分隔符作为一个数据的标志
差异:
读出来的数据格式还是不一样的:
read_table是以制表符 \t 作为数据的标志,也就是以行为单位进行存储。
read_csv是以分隔符号逗号作为数据的标志。

参考:https://blog.csdn.net/qq_43243022/article/details/82978898

了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?

delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。
当delimiter=’\t’时,被处理文件就是TSV。

参考:https://blog.csdn.net/wf592523813/article/details/89165015

总结:加载的数据是所有工作的第一步,我们的工作会接触到不同的数据格式(eg:.csv;.tsv;.xlsx),但是加载的方 法和思路都是一样的,在以后工作和做项目的过程中,遇到之前没有碰到的问题,要多多查资料吗,使用google,了解业务逻辑,明白输入和输出是什么。

1.1.3 任务三:每1000行为一个数据模块,逐块读取

思考:什么是逐块读取?为什么要逐块读取呢?

更快读文件,看看文件长什么样子。
尽量避免直接对过大的dataframe直接操作(当然有时候没有办法,必须对整体的dataframe进行操作,这时就需要从其他方面优化,比如尽量较少不必要的列,以降低内存消耗),以从csv文件读取数据为例,可以通过read_csv方法的chunksize参数,设定读取的行数,返回一个固定行数的迭代器,每次读取只消耗相应行数对应的dataframe的内存,从而可以有效的解决内存消耗过多的问题,参考如下demo。

参考:https://blog.csdn.net/S_o_l_o_n/article/details/99761021

1.1.4 任务四:将表头改成中文,索引改为乘客ID

df = pd.read_csv
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值