本次是学习如何用python进行数据分析。
它分为三个单元进行,接下来的内容是第一单元 数据加载及探索性数据分析。
学习内容
1.数据集的下载,这一部分由组织的文件获取
2.导入pandas和numpy
pandas是基于numpy的一种工具,该工具是为了解决数据分析任务而建的,pandas纳入了大量库和一些标准的数据库模型,提供了高效率的操作大型数据集所需要的工具,pandas提供了大量快速便捷的处理数据的函数和方法,使python成为了强大而高效的数据分析环境的重要因素之一。
3.载入数据
3.1 使用相对路径载入数据
3.2 绝对路径
数据输出使用 df.head(3) head的用法是输出前几行数据
4.每1000行 为一个数据模块,逐块读取
【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?
什么是逐块读取?为什么要逐块读取呢?
使用pandas来处理文件的时候,会遇到大文件,如果我们只想要读取其中的一部分数据或对文件进行逐块处理。
5.将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]
任务 观察前10行与后15行的数据
判断数据是否为空,为空的地方返回True,其余地方返回False¶
panda基础
pandas中有两个数据类型DateFrame和Series
Series相当于数组numpy.array类似,它是有索引,如果我们未指定索引,则是以数字自动生成,其实也可以看成一个字典
DataFrame相当于有表格,有行表头和列表头
任务
Cabin"这列的所有值 [有多种方法]
加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除
【思考】还有其他的删除多余的列的方式吗?
1.del df[‘columns’] #改变原始数据
2.df.drop(‘columns’,axis=1)#删除不改表原始数据,可以通过重新赋值的方式赋值该数据
3.df.drop(‘columns’,axis=1,inplace=‘True’) #改变原始数据
*
探索性数据分析
开始之前,导入numpy、pandas包和数据
大多数时候我们都是想根据列的值来排序,所以,将你构建的DataFrame中的数据根据某一列,升序排列
利用Pandas进行算术计算,计算两个DataFrame数据相加结果
两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。
谢谢大家