Python数据分析模块 | pandas做数据分析(三):统计相关函数


北京 |深度学习与人工智能研修
12月23-24日
再设经典课程   重温深度学习
阅读全文
>

计算操作


1、pandas.series.value_counts


Series.value_counts(normalize=False,sort=True,ascending=False, bins=None, dropna=True)


作用:返回一个包含值和该值出现次数的Series对象,次序按照出现的频率由高到低排序. 


参数: 
normalize : 布尔值,默认为False,如果是True的话,就会包含该值出现次数的频率. 
sort : 布尔值,默认为True.排序控制. 
ascending : 布尔值,默认为False,以升序排序 
bins : integer, optional 
Rather than count values, group them into half-open bins, a convenience for pd.cut, only works with numeric data 
dropna : 布尔型,默认为True,表示不包括NaN

2.pandas.DataFrame.count

DataFrame.count(axis=0, level=None, numeric_only=False) 
Return Series with number of non-NA/null observations over requested axis. Works with non-floating point data as well (detects NaN and None)

Parameters: 
axis : {0 or ‘index’, 1 or ‘columns’}, default 0 
0 or ‘index’ for row-wise, 1 or ‘columns’ for column-wise 
level : int or level name, default None 
If the axis is a MultiIndex (hierarchical), count along a particular level, collapsing into a DataFrame 
numeric_only : boolean, default False 
Include only float, int, boolean data 
Returns: 
count : Series (or DataFrame if level specified)


最大最小值

标准统计函数

pandas.dataframe.sum


返回指定轴上值的和.


DataFrame.sum(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)


参数: 
axis : {index (0), columns (1)} 
skipna : 布尔值,默认为True.表示跳过NaN值.如果整行/列都是NaN,那么结果也就是NaN 
level : int or level name, default None 
If the axis is a MultiIndex (hierarchical), count along a particular level, collapsing into a Series 
numeric_only : boolean, default None 
Include only float, int, boolean columns. If None, will attempt to use everything, then use only numeric data. Not implemented for Series. 
Returns: 
sum : Series or DataFrame (if level specified)


import numpy as np

import pandas as pd

df=pd.DataFrame(data=[[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],                index=["a","b","c","d"],                

columns=["one","two"])

print("df:")

print(df)

#直接使用sum()方法,返回一个列求和的Series,自动跳过NaN值

print("df.sum()")

print(df.sum())

#当轴为1.就会按行求和

print("df.sum(axis=1)")

print(df.sum(axis=1))

#选择skipna=False可以禁用跳过Nan值

print("df.sum(axis=1,skipna=False):")

print(df.sum(axis=1,skipna=False))


结果: 


2、pandas.dataframe.mean


返回指定轴上值的平均数.


DataFrame.mean(axis=None,skipna=None,level=None,numeric_only=None, **kwargs)


参数: 
axis : {index (0), columns (1)} 
skipna :布尔值,默认为True.表示跳过NaN值.如果整行/列都是NaN,那么结果也就是NaN 
level : int or level name, default None 
If the axis is a MultiIndex (hierarchical), count along a particular level, collapsing into a Series 
numeric_only : boolean, default None 
Include only float, int, boolean columns. If None, will attempt to use everything, then use only numeric data. Not implemented for Series.


例子:


import numpy as np

import pandas as pd

df=pd.DataFrame(data=[[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],                
index=["a","b","c","d"],                

columns=["one","two"])

print("df:")

print(df)

#直接使用mean()方法,返回一个列求平均数的Series,自动跳过NaN值

print("df.mean()")

print(df.mean())

#当轴为1.就会按行求平均数

print("df.mean(axis=1)")

print(df.mean(axis=1))

#选择skipna=False可以禁用跳过Nan值

print("df.mean(axis=1,skipna=False):")

print(df.mean(axis=1,skipna=False))


结果: 


排序


1、pandas.dataframe.sort_values


DataFrame.sort_values(by,axis=0,ascending=True,inplace=False, kind='quicksort', na_position='last') 


Sort by the values along either axis


参数: 
by : str or list of str 
Name or list of names which refer to the axis items. 
axis : {0 or ‘index’, 1 or ‘columns’}, default 0 
Axis to direct sorting 
ascending : bool or list of bool, default True 
Sort ascending vs. descending. Specify list for multiple sort orders. If this is a list of bools, must match the length of the by. 
inplace : bool, default False 
if True, perform operation in-place 
kind : {‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’ 
Choice of sorting algorithm. See also ndarray.np.sort for more information. mergesort is the only stable algorithm. For DataFrames, this option is only applied when sorting on a single column or label. 
na_position : {‘first’, ‘last’}, default ‘last’ 
first puts NaNs at the beginning, last puts NaNs at the end 
Returns: 
sorted_obj : DataFrame


原文链接:http://blog.csdn.net/xierhacker/article/details/65644734


查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org


请关注人工智能LeadAI公众号,查看更多专业文章

大家都在看

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础



点击“阅读原文”直接打开报名链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值