python3 value counts函数_(python3)pandas做数据分析:统计相关函数

本文介绍了Python3中pandas库的数据分析功能,重点讲解了Series.value_counts()和DataFrame.count()、sum()、mean()等统计函数的使用方法,包括参数解析和示例代码,展示了如何进行计数、求和、平均值计算,以及处理缺失值(NaN)的情况。
摘要由CSDN通过智能技术生成

一.计数操作

1.pandas.Series.value_counts

Series.value_counts(normalize=False,sort=True,ascending=False, bins=None, dropna=True)

作用:返回一个包含值和该值出现次数的Series对象,次序按照出现的频率由高到低排序.

参数:

normalize : 布尔值,默认为False,如果是True的话,就会包含该值出现次数的频率.

sort : 布尔值,默认为True.排序控制.

ascending : 布尔值,默认为False,以升序排序

bins : integer, optional

Rather than count values, group them into half-open bins, a convenience for pd.cut, only works with numeric data

dropna : 布尔型,默认为True,表示不包括NaN

2.pandas.DataFrame.count

DataFrame.count(axis=0, level=None, numeric_only=False)

Return Series with number of non-NA/null observations over requested axis. Works with non-floating point data as well (detects NaN and None)

Parameters:

axis : {0 or ‘index’, 1 or ‘columns’}, default 0

0 or ‘index’ for row-wise, 1 or ‘columns’ for column-wise

level : int or level name, default None

If the axis is a MultiIndex (hierarchical), count along a particular level, collapsing into a DataFrame

numeric_only : boolean, default False

Include only float, int, boolean data

Returns:

count : Series (or DataFrame if level specified)

二.最大最小值

三.标准统计函数

1.pandas.DataFrame.sum

返回指定轴上值的和.

DataFrame.sum(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

参数:

axis : {index (0), columns (1)}

skipna : 布尔值,默认为True.表示跳过NaN值.如果整行/列都是NaN,那么结果也就是NaN

level : int or level name, default None

If the axis is a MultiIndex (hierarchical), count along a particular level, collapsing into a Series

numeric_only : boolean, default None

Include only float, int, boolean columns. If None, will attempt to use everything, then use only numeric data. Not implemented for Series.

Returns:

sum : Series or DataFrame (if level specified)

import numpy as np

import pandas as pd

df=pd.DataFrame(data=[[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],

index=["a","b","c","d"],

columns=["one","two"])

print("df:")

print(df)

#直接使用sum()方法,返回一个列求和的Series,自动跳过NaN值

print("df.sum()")

print(df.sum())

#当轴为1.就会按行求和

print("df.sum(axis=1)")

print(df.sum(axis=1))

#选择skipna=False可以禁用跳过Nan值

print("df.sum(axis=1,skipna=False):")

print(df.sum(axis=1,skipna=False))

结果:

179665883_1_20200105090510784

2.pandas.DataFrame.mean

返回指定轴上值的平均数.

DataFrame.mean(axis=None,skipna=None,level=None,numeric_only=None, **kwargs)

参数:

axis : {index (0), columns (1)}

skipna :布尔值,默认为True.表示跳过NaN值.如果整行/列都是NaN,那么结果也就是NaN

level : int or level name, default None

If the axis is a MultiIndex (hierarchical), count along a particular level, collapsing into a Series

numeric_only : boolean, default None

Include only float, int, boolean columns. If None, will attempt to use everything, then use only numeric data. Not implemented for Series.

例子:

import numpy as np

import pandas as pd

df=pd.DataFrame(data=[[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],

index=["a","b","c","d"],

columns=["one","two"])

print("df:")

print(df)

#直接使用mean()方法,返回一个列求平均数的Series,自动跳过NaN值

print("df.mean()")

print(df.mean())

#当轴为1.就会按行求平均数

print("df.mean(axis=1)")

print(df.mean(axis=1))

#选择skipna=False可以禁用跳过Nan值

print("df.mean(axis=1,skipna=False):")

print(df.mean(axis=1,skipna=False))

结果:

179665883_2_20200105090510909

### 回答1: Python中的value_counts函数pandas库中的一个方法,用于统计一个Series中每个元素出现的次数,并按照出现次数从高到低排序。该函数返回一个新的Series,其中每个元素是原Series中的一个唯一,而每个元素的则是该元素在原Series中出现的次数。该函数可以用于数据清洗、数据分析等场景。 ### 回答2: Python中的value_counts函数是一个常用的统计函数,主要用于计算指定Series中各个元素出现的次数。该函数返回一个新的Series,其中包含原始Series中所有元素出现的次数,并按照出现次数从大到小排序。 该函数的语法为: ``` Series.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True) ``` 其中,各个参数的含义如下: - normalize:默认为False,表示返回的结果是否为每个元素出现次数的百分比,即按频率排序。 - sort:默认为True,表示按照频次大小排序。 - ascending:默认为False,表示倒序排列。 - bins:int或序列,用于指定将划分为多少个等宽的区间。 - dropna:默认为True,表示将缺失NaN排除在结果之外。 在实际应用中,value_counts函数常用于处理数据集中的分类变量,比如对一个商店中的商品销售数据进行统计分析,可以使用value_counts函数计算每种商品出现的频率,进而了解商品的销售情况和消费者的购买偏好。 另外,对于DataFrame类型的数据也可以使用value_counts函数,但需要指定DataFrame中的具体列名。 总之,value_counts函数Python中一个非常实用的统计函数,在数据分析和处理中起到了不可或缺的作用。 ### 回答3: Python value_counts 函数是一种非常实用、强大的函数,可以用于任何 pandas 数据结构中,比如 Series,DataFrame 等。该函数的作用是统计某一列数据中每个元素出现的次数,并按照出现次数降序排列。 value_counts 函数中有一些重要参数,例如 normalize、sort、ascending,下面我们来详细解释一下。 - normalize:默认为 False,表示计算元素出现次数,而不是出现频率。如果设置为 True,则计算每个元素在列中出现的频率,即出现次数除以总个数。 - sort:默认是 True,表示按照降序排列输出结果,如果设置成 False,则按照元素在列中出现的顺序输出结果。 - ascending:默认是 False,表示按照降序排列输出结果,设置成 True 则按照升序排列输出结果。 举个例子来说明 value_counts 函数的用法。我们有一份销售数据的 DataFrame,其中有一列是产品名称,我们想知道每种产品在数据中出现的次数。 首先我们需要导入 pandas 库: ```python import pandas as pd ``` 接下来我们读取数据: ```python df = pd.read_csv('sales_data.csv') ``` 然后我们可以使用 value_counts 函数: ```python product_counts = df['Product'].value_counts() ``` 这样,product_counts 里面就包含了数据中每个产品出现的次数,然后我们就可以对其进行一些操作,比如画出柱状图: ```python import matplotlib.pyplot as plt plt.bar(product_counts.index, product_counts.values) plt.show() ``` 这样,我们就可以看到每个产品的销售量情况了。 总之,Python value_counts 函数pandas 中十分实用的函数,可以帮助用户轻松统计每个元素出现的次数,再利用可视化工具来展示结果,方便用户更好地了解数据分布情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值