pandas入门-汇总和计算描述统计笔记

本文是对《python数据分析》的关于pandas入门章节中汇总和计算描述统计的一个回顾性总结笔记,包括相关解释与代码案例。 

 

目录

求均值df.mean()   

求各列最大值的索引值

主要描述和汇总统计函数

相关系数与协方差

非重复值(唯一值)的求取

值个数统计

包含指定的值的情况(成员资格)

 


求均值df.mean()   

df.mean
    注意数据中缺失与否的处理。skipna=False。 这样遇到缺失值项时便会计算为NaN, 例子:

df=DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])
df.mean(axis=1,skipna=False) # 不跳过含有缺失值的项。skipna=False。 这样遇到缺失值项时便会计算为NaN

输出
a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64
    其他相关参数

 

求各列最大值的索引值

df.idxmax,注意带了个x
    例子
        df.idxmax() # 计算能够获取到最大值的索引值,对应最小值为indxmin() 注意带了个x 
 输出
one    b
two    d
dtype: object

主要描述和汇总统计函数

 

相关系数与协方差


    corr
        Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数。DataFrame的corr和cov方法将以DataFrame的形式分别返回完整的相关系数。
    corrwith
        DataFrame的corrwith方法,你可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series(针对各列进行计算):

returns.corrwith(returns.IBM)

Out[249]: # 输出returns这个DataFrame中各列与IBM例的相关系数
AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

非重复值(唯一值)的求取

series.unique()
    返回该列中去重的值的array数组
        例子
            obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
            print(obj.unique())
   输出
                    ['c' 'a' 'd' 'b']
 

值个数统计

 

series.value_counts()
    返回该列中各个值出现的个数,结果默认按降序排列
        例子
            print(obj.value_counts())
 输出
c    3
a    3
b    2
d    1
dtype: int64

包含指定的值的情况(成员资格)

isin返回是否包含的真值series,包含于则为True 
例子

obj[obj.isin(['b','c'])] # obj中元素包含于['b','c']中的输出。注意此进行了值筛选了,选取为True的值

输出
0    c
5    b
6    b
7    c
8    c
dtype: object

参考与鸣谢:

《利用Python进行数据分析》

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值