2021-07-13动手学数据分析 task_1数据加载及探索性数据分析

最新推荐文章于 2024-10-04 13:19:28 发布

icdatsc

最新推荐文章于 2024-10-04 13:19:28 发布

阅读量96

点赞数

文章标签：大数据数据分析

本文链接：https://blog.csdn.net/m0_57173763/article/details/118713496

版权

本次是学习如何用python进行数据分析。
它分为三个单元进行，接下来的内容是第一单元数据加载及探索性数据分析。

学习内容

1.数据集的下载，这一部分由组织的文件获取
2.导入pandas和numpy
pandas是基于numpy的一种工具，该工具是为了解决数据分析任务而建的，pandas纳入了大量库和一些标准的数据库模型，提供了高效率的操作大型数据集所需要的工具，pandas提供了大量快速便捷的处理数据的函数和方法，使python成为了强大而高效的数据分析环境的重要因素之一。
在这里插入图片描述
3.载入数据
3.1 使用相对路径载入数据

3.2 绝对路径

数据输出使用 df.head(3) head的用法是输出前几行数据
4.每1000行为一个数据模块，逐块读取

【思考】知道数据加载的方法后，试试pd.read_csv()和pd.read_table()的不同，如果想让他们效果一样，需要怎么做？了解一下’.tsv’和’.csv’的不同，如何加载这两个数据集？

在这里插入图片描述

什么是逐块读取？为什么要逐块读取呢？
使用pandas来处理文件的时候，会遇到大文件，如果我们只想要读取其中的一部分数据或对文件进行逐块处理。
5.将表头改成中文，索引改为乘客ID [对于某些英文资料，我们可以通过翻译来更直观的熟悉我们的数据]
在这里插入图片描述

任务观察前10行与后15行的数据

判断数据是否为空，为空的地方返回True，其余地方返回False¶
在这里插入图片描述

panda基础

pandas中有两个数据类型DateFrame和Series
在这里插入图片描述
Series相当于数组numpy.array类似，它是有索引，如果我们未指定索引，则是以数字自动生成，其实也可以看成一个字典
DataFrame相当于有表格，有行表头和列表头

任务
Cabin"这列的所有值 [有多种方法]

加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除
在这里插入图片描述
【思考】还有其他的删除多余的列的方式吗？
1.del df[‘columns’] #改变原始数据

2.df.drop(‘columns’,axis=1)#删除不改表原始数据，可以通过重新赋值的方式赋值该数据

3.df.drop(‘columns’,axis=1,inplace=‘True’) #改变原始数据
*

探索性数据分析

开始之前，导入numpy、pandas包和数据

在这里插入图片描述
大多数时候我们都是想根据列的值来排序,所以，将你构建的DataFrame中的数据根据某一列，升序排列
利用Pandas进行算术计算，计算两个DataFrame数据相加结果
两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。
谢谢大家