这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰坦尼克的任务,实战数据分析全流程。
- 代码都是jupyter形式
复习:在前面我们已经学习了Pandas基础,知道利用Pandas读取csv数据的增删查改,今天我们要学习的就是探索 性数据分析,主要介绍如何利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。
第一章:探索性数据分析
3.1开始之前,导入numpy、pandas包和数据
#加载所需的库
import numpy as np
import pandas as pd
3.2了解你的数据吗?
教材《Python for Data Analysis》第五章
3.2.1任务一:利用Pandas对示例数据进行排序,要求升序
具体请看《利用Python进行数据分析》第五章 排序和排名部分
#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2,4)),index = [3, 2],columns = ["c","b","d","a"])
frame.reset_index()
pd.DataFrame() :创建一个DataFrame对象
np.arange(8).reshape((2, 4)) : 生成一个二维数组(2*4),第一列:0,1,2,3 第二列:4,5,6,7
index = [3, 2]:DataFrame 对象的行索引
columns = [“c”,“b”,“d”,“a”]:DataFrame 对象的列索引
# 大多数时候我们都是想根据列的值来排序,所以,将你构建的DataFrame中的数据根据某一列,利用参数by,降序排列
frame.sort_val