python求解典型相关系数_统计师的Python日记【第5天:Pandas,露两手】

本文是统计师的Python日记第5天,重点介绍Pandas库的描述性统计功能,如加总、描述性统计分析、相关系数计算,以及如何处理缺失值,包括丢弃和填充。此外,还探讨了层次化索引和数据的导入导出。
摘要由CSDN通过智能技术生成

本文是【统计师的Python日记】第5天的日记

回顾一下:

第1天学习了Python的基本页面、操作,以及几种主要的容器类型;

第2天学习了python的函数、循环和条件、类。

第3天了解了Numpy这个工具库。

第4天初步了解了Pandas这个库

原文复习(点击查看):

今天将带来第5天的学习日记。

目录如下:

前言

一、描述性统计

1. 加总

2. 描述性统计

3. 相关系数

二、缺失值处理

1. 丢弃缺失值

2. 填充缺失值

三、层次化索引

1. 用层次索引选取子集

2. 自定义变量名

3. 变量名与索引互换

4. 数据透视表

四、数据导入导出

1. 数据导入

2. 数据导出

统计师的Python日记【第5天:Pandas,露两手】

前言

根据我的Python学习计划:

Numpy → Pandas→ 掌握一些数据清洗、规整、合并等功能 → 掌握类似与SQL的聚合等数据管理功能 → 能够用Python进行统计建模、假设检验等分析技能 → 能用Python打印出100元钱 → 能用Python帮我洗衣服、做饭 → 能用Python给我生小猴子......

上一集开始学习了Pandas的数据结构(Series和DataFrame),以及DataFrame一些基本操作:改变索引名、增加一列、删除一列、排序。

今天我将继续学习Pandas。

一、描述性统计

想拿一个简单的数据试试手,翻到了一份我国2012-2015年季度GDP的数据,如下表(单位:万亿),

121267566_1_20180107114109927

想整理到DataFrame中,如何处理?

用DataFrame:

gdp=DataFrame([[11.61,13.08, 13.67, 15.05],[12.81, 14.30, 15.07, 16.62], [13.87, 15.52, 16.35, 17.87], [14.80, 16.62,17.36, 18.94]], index=['2012', '2013', '2014', '2015'], columns=['s1', 's2','s3', 's4'])

121267566_2_201801071141105

得到了一张非常清爽的DataFrame数据表。

现在我要对这张表进行简单的描述性统计:

1. 加总

.sum()是将数据纵向加总(每一列加总)

121267566_3_2018010711411099

这就很奇怪了,2012、2013、2014、2015四个年份的第一季度加总,这是什么鬼?其实我更想看横向加总,就是每一年四个季度加总,得到一年的总和,原来,指定axis=1即可:

121267566_4_20180107114110146

特别注意的是缺失值的情况!

如果有缺失值,比如四个数值2,3,1,NaN,那么加总的结果是2+3+1+NaN=6,也就是缺失值自动排除掉了!这点特别注意,因为这可能会导致你的数据不必苛,比如某一年少一个季度的值,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值