本文是【统计师的Python日记】第5天的日记
回顾一下:
第1天学习了Python的基本页面、操作,以及几种主要的容器类型;
第2天学习了python的函数、循环和条件、类。
第3天了解了Numpy这个工具库。
第4天初步了解了Pandas这个库
原文复习(点击查看):
今天将带来第5天的学习日记。
目录如下:
前言
一、描述性统计
1. 加总
2. 描述性统计
3. 相关系数
二、缺失值处理
1. 丢弃缺失值
2. 填充缺失值
三、层次化索引
1. 用层次索引选取子集
2. 自定义变量名
3. 变量名与索引互换
4. 数据透视表
四、数据导入导出
1. 数据导入
2. 数据导出
统计师的Python日记【第5天:Pandas,露两手】
前言
根据我的Python学习计划:
Numpy → Pandas→ 掌握一些数据清洗、规整、合并等功能 → 掌握类似与SQL的聚合等数据管理功能 → 能够用Python进行统计建模、假设检验等分析技能 → 能用Python打印出100元钱 → 能用Python帮我洗衣服、做饭 → 能用Python给我生小猴子......
上一集开始学习了Pandas的数据结构(Series和DataFrame),以及DataFrame一些基本操作:改变索引名、增加一列、删除一列、排序。
今天我将继续学习Pandas。
一、描述性统计
想拿一个简单的数据试试手,翻到了一份我国2012-2015年季度GDP的数据,如下表(单位:万亿),
想整理到DataFrame中,如何处理?
用DataFrame:
gdp=DataFrame([[11.61,13.08, 13.67, 15.05],[12.81, 14.30, 15.07, 16.62], [13.87, 15.52, 16.35, 17.87], [14.80, 16.62,17.36, 18.94]], index=['2012', '2013', '2014', '2015'], columns=['s1', 's2','s3', 's4'])
得到了一张非常清爽的DataFrame数据表。
现在我要对这张表进行简单的描述性统计:
1. 加总
.sum()是将数据纵向加总(每一列加总)
这就很奇怪了,2012、2013、2014、2015四个年份的第一季度加总,这是什么鬼?其实我更想看横向加总,就是每一年四个季度加总,得到一年的总和,原来,指定axis=1即可:
特别注意的是缺失值的情况!
如果有缺失值,比如四个数值2,3,1,NaN,那么加总的结果是2+3+1+NaN=6,也就是缺失值自动排除掉了!这点特别注意,因为这可能会导致你的数据不必苛,比如某一年少一个季度的值,