2021-07-13动手学数据分析 task_1数据加载及探索性数据分析

本次是学习如何用python进行数据分析。
它分为三个单元进行,接下来的内容是第一单元 数据加载及探索性数据分析。

学习内容

1.数据集的下载,这一部分由组织的文件获取
2.导入pandas和numpy
pandas是基于numpy的一种工具,该工具是为了解决数据分析任务而建的,pandas纳入了大量库和一些标准的数据库模型,提供了高效率的操作大型数据集所需要的工具,pandas提供了大量快速便捷的处理数据的函数和方法,使python成为了强大而高效的数据分析环境的重要因素之一。
在这里插入图片描述
3.载入数据
3.1 使用相对路径载入数据
在这里插入图片描述
3.2 绝对路径
在这里插入图片描述
数据输出使用 df.head(3) head的用法是输出前几行数据
4.每1000行 为一个数据模块,逐块读取
在这里插入图片描述
【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?

在这里插入图片描述

什么是逐块读取?为什么要逐块读取呢?
使用pandas来处理文件的时候,会遇到大文件,如果我们只想要读取其中的一部分数据或对文件进行逐块处理。
5.将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]
在这里插入图片描述
在这里插入图片描述
任务 观察前10行与后15行的数据
在这里插入图片描述
在这里插入图片描述

判断数据是否为空,为空的地方返回True,其余地方返回False¶
在这里插入图片描述

panda基础

pandas中有两个数据类型DateFrame和Series
在这里插入图片描述
Series相当于数组numpy.array类似,它是有索引,如果我们未指定索引,则是以数字自动生成,其实也可以看成一个字典
DataFrame相当于有表格,有行表头和列表头
在这里插入图片描述
任务
Cabin"这列的所有值 [有多种方法]
在这里插入图片描述
在这里插入图片描述
加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除
在这里插入图片描述
【思考】还有其他的删除多余的列的方式吗?
1.del df[‘columns’] #改变原始数据

2.df.drop(‘columns’,axis=1)#删除不改表原始数据,可以通过重新赋值的方式赋值该数据

3.df.drop(‘columns’,axis=1,inplace=‘True’) #改变原始数据
*

探索性数据分析

开始之前,导入numpy、pandas包和数据

在这里插入图片描述
大多数时候我们都是想根据列的值来排序,所以,将你构建的DataFrame中的数据根据某一列,升序排列
利用Pandas进行算术计算,计算两个DataFrame数据相加结果
两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。
谢谢大家

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值