pandas核心:Series和DataFrame分别对应一维的序列好二维的表结构
使用:
from pandas import Series,DataFrame
import pandas as pd
大部分一维数据都可以用来构造Series对象----Series包含index和values属性
例子
>s=Series([1,2,3,4,'abc'])
>s
0 1
1 2
2 3
3 4
4 abc
dtype:object
>s=Series(data=[1,2,3],index=['a','b',c])
>s
a 1
b 2
c 3
dtype:int64
>s.index
Index(['a','b','c'],dtype='object')
DataFrame是表格类型的数据结构
它含有一组有序的列(类似于 index),每列可以是不同的值类型(不像 ndarray
只能有一个 dtype)
基础语法:DataFrame(data=None,index=None,Columns=None)//index是索引,
columns是列名
例子
>data={'state':['a','b','c'],'year':[2013,2014,2015],'pop':[1,2,3]}
> data
{'state': ['a', 'b', 'c'], 'pop': [1, 2, 3], 'year': [2013, 2014, 2015]}
> df=DataFrame(data)
> df
pop state year
0 1 a 2013
1 2 b 2014
2 3 c 2015
> df=DataFrame(data,index=['one','two','three'],columns=
['year','state','pop','debt'])
> df
year state pop debt
one 2013 a 1 NaN
two 2014 b 2 NaN
three 2015 c 3 NaN //NAN表示缺失
pandas的一些统计方法:
count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化
使用:
from pandas import Series,DataFrame
import pandas as pd
大部分一维数据都可以用来构造Series对象----Series包含index和values属性
例子
>s=Series([1,2,3,4,'abc'])
>s
0 1
1 2
2 3
3 4
4 abc
dtype:object
>s=Series(data=[1,2,3],index=['a','b',c])
>s
a 1
b 2
c 3
dtype:int64
>s.index
Index(['a','b','c'],dtype='object')
DataFrame是表格类型的数据结构
它含有一组有序的列(类似于 index),每列可以是不同的值类型(不像 ndarray
只能有一个 dtype)
基础语法:DataFrame(data=None,index=None,Columns=None)//index是索引,
columns是列名
例子
>data={'state':['a','b','c'],'year':[2013,2014,2015],'pop':[1,2,3]}
> data
{'state': ['a', 'b', 'c'], 'pop': [1, 2, 3], 'year': [2013, 2014, 2015]}
> df=DataFrame(data)
> df
pop state year
0 1 a 2013
1 2 b 2014
2 3 c 2015
> df=DataFrame(data,index=['one','two','three'],columns=
['year','state','pop','debt'])
> df
year state pop debt
one 2013 a 1 NaN
two 2014 b 2 NaN
three 2015 c 3 NaN //NAN表示缺失
pandas的一些统计方法:
count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化