数据分析之概要
一、Pandas库入门
http://pandas.pydata.org
1.Pandas库的介绍
Pandas:python第三方库,提供性能易于数据类型和分析工具
引入:import pandas as pd
数据类型:Series, DataFrame
2.Pandas库的Series类型
由一组数据及与之相关的数据索引组成。
自动索引:0 1 2 3
自定义索引:a b c d
Series类型可以由如下类型创建:
(1)标量值
(2)字典类型
(3)ndarray类型
(4)python列表
index与列表元素个数一致
(5)其他函数
range()函数
Series类型的基本操作:
Series类型的操作类似ndarray类型:
Series类型的操作类似python字典类型:
通过自定义索引访问
保留字in操作
使用.get()方法
Series类型对齐操作:
Series类型的name属性:
Series类型的修改:
Series对象可以随时修改并即刻生效
3.Pandas库的DataFrame类型
由共用相同索引的一组列组成。
DataFrame类型可以由如下类型创建:
(1)二维ndarray对象
(2)一维ndarray对象字典
自定义行索引、自定义列索引、数据根据行列索引自动补齐
(3)列表类型的字典
4.Pands库的数据类型操作
.reindex()能够改变或重排Series和DataFrame索引
5.Pandas库的数据类型运算
算术运算:
比较运算:
二、Pandas数据特征分析
1.数据的排序
.sort_index()方法在指定轴上根据索引进行排序,默认升序
.sort_index(axis = 0, ascending = True)
.sort_values()方法在指定轴上根据数值进行排序,默认升序
Series.sort_values(axis = 0, ascending = True)
DataFrame.sort_values(by, axis = 0, ascending =True)
NaN统计放到排序末尾:
2.数据的基本统计分析
(1)适用于Series和DataFrame类型
.describe()方法:针对0轴(各列)的统计汇总
.sum():计算数据的总和,按0轴计算
.count():非NaN值的数量
.mean() .median():计算数据的算术平均值、算术中位数
.var() .std():计算数据的方差、标准差
.min() .max():计算数据的最小值、最大值
(2)适用于Series类型
.argmin() .argmax():计算数据最大值、最小值所在的位置的索引位置(自定义索引)
.idxmin() .idxmax():计算数据最大值、最小值所在的位置的索引(自定义索引)
3.数据的累计统计分析
适应于Series和DataFrame类型,累计计算
适用于Series和DataFrame类型,滚动计算(窗口计算)
4.数据的相关分析