动手学数据分析 Task01:数据加载及探索性数据分析

本文介绍了在Datawhale组队学习数据分析的过程中,关于数据加载及探索性数据分析的任务。重点讨论了`pd.read_csv()`与`pd.read_table()`的异同,强调了逐块读取大数据文件的重要性,并总结了不同排序方式。同时提出了关于DataFrame数据类型、处理缺失值的最佳实践等问题。
摘要由CSDN通过智能技术生成

动手学数据分析

本次跟随Datawhale组织的动手学数据分析组队学习,对数据分析继续加强学习,希望能有所收获。Datawhale是一个很好的开源组织,会组织很多优质、开源的系列学习。

附上本次组队学习的计划和教程资料,如果链接失效,可点击这里前往Datawhale官网自行查找,即使没有当时加入组队学习,有兴趣的话从现在开始学习也不晚哦~

由于此次是需要有一些pandas基础,之前有做过pandas的脑图总结,有需要的同学可以点这里前往获取。

现在学习喜欢用脑图的方式,知识点清晰明了,易于查找和复习,希望也可以帮助大家梳理知识脉络,同时欢迎补充。

Task01:数据加载及探索性数据分析

在这里插入图片描述
链接:https://pan.baidu.com/s/1vgHMknIps9e0oiLfyUKG0Q
提取码:d8cd

一、重点与思考

筛选了一些比较重要的操作以及一些思考的回答:

【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?

  1. 要想效果相同,将read_table的分隔符参数sep改为‘,’。
    read_table将范式的分隔符分隔值的文件读入DataFrame,默认为将制表符分隔的值(TSV)文件读入DataFrame。
    read_csv将逗号分隔的值(CSV)文件读入DataFrame。

  2. TSV与CSV的区别:
    1)从名称上即可知道,TSV 是Tab-separated values的缩写,即制表符分隔值,是用制表符(Tab,’\t’)作为字段值的分隔符;CSV,Comma-separated values是用半角逗号(’,’)作为字段值的分隔符;
    2)IANA规定的标准TSV格式,字段值之中是不允许出现制表符的。

  3. Python对TSV文件的支持: Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。 delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。 当delimiter=’\t’时,被处理文件就是TSV。

【思考】什么是逐块读取?为什么要逐块读取呢?

逐块读取:将数据分成小块按块读入,得到的对象指向了多个分块对象,但并没有将实际数据先读入,而是在提取数据时才将数据提取进来。

原因:在处理很⼤的⽂件时,可将大文件拆分成小块按块读入后,这样可减少内存的存储与计算资源。数据的处理和清洗经常使用分块的方式处理,这能大大降低内存的使用量,但相比会更耗时一些。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
【总结】下面将不同的排序方式做一个总结
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、阶段性提问

  1. 观察DataFrame数据类型,可以分为哪些类型?
    在这里插入图片描述
    详情请查看文档,或点击这里

  2. 数据文件的NAN/NULL数据读取为DataFrame后最终会变为哪种数据?
    在这里插入图片描述

  3. 如何筛选姓名中含有"Mr."的数据出来?
    在这里插入图片描述

  4. 如何查看数据中的95%分位数?
    在这里插入图片描述

  5. 关于缺失值部分:
    df[df[‘Age’]==None]=0 # 不推荐
    df[df[‘Age’] == np.nan] = 0 # 不推荐
    df[df[‘Age’].isnull()] = 0 # 还好
    df[‘Age’] = df[‘Age’].fillna(0) # 推荐
    你能说说原因吗?

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值