探秘数据世界:超实用的8个Pandas数据统计函数让你轻松成为数据处理高手,赶紧收藏起来!

嘿,你有用过 Python 编程语言中的 Pandas 这个神奇的数据处理库吗?它是一款广泛应用于数据科学、人工智能和机器学习领域的实用库。

今天,我将介绍其中八个最常用的数据统计函数,让你在使用 Pandas 时轻松愉快地处理数据!

一、describe 函数

首先,让我们看看 describe 函数。这个函数可以生成一组数据的描述性统计数据,包括数量、平均值、标准差、最小值和最大值。简单来说,这个函数就像是万能的,告诉你所有关于数据集的信息。

举个例子:

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df.describe())

输出结果如下:

Age Salary count 5.000000 5.000000 mean 35.000000 90000.000000 std 8.660254 34028.874679 min 25.000000 50000.000000 25% 30.000000 70000.000000 50% 35.000000 90000.000000 75% 40.000000 110000.000000 max 45.000000 130000.000000

这里,我们有一个员工信息的数据集,包括姓名、年龄和薪水。调用 describe 函数之后,我们得到了所有相关的描述性统计数据,如总数、平均值、标准差、最小值和最大值。

二、mean 函数

接下来是 mean 函数。这个函数可以计算一组数据的平均值。

举个例子:

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df['Salary'].mean())

输出结果为:

90000.0

这里,我们只关心员工的薪水,调用 mean 函数之后,我们得到了这五个员工的薪水平均值。

三、max、 min 函数

然后是 max 和 min 函数。一个是找出一组数据中的最大值,一个是找出最小值。他们总是在一起,就像是好朋友一样,充满默契,帮助你找到数据中的极限值。

举个例子:

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df['Age'].max()) 
print(df['Salary'].min()) 
输出结果为:

45 50000

这里,我们找到了这五个员工中年龄最大的是谁,以及薪水最低的是多少。

四、unique 函数

接下来是 unique 函数。这个函数可以让你轻松地得到一组数据的唯一值,去除重复项。

举个例子:

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Alice'], 'Age': [25, 30, 35, 40, 45, 25], 'Salary': [50000, 70000, 90000, 110000, 130000, 50000]} 
df = pd.DataFrame(data) 
print(df['Name'].unique())

输出结果为:

['Alice' 'Bob' 'Charlie' 'David' 'Emily']

这里,我们有一个员工信息的数据集,发现其中有两个重复的姓名和薪水。调用 unique 函数之后,我们得到了没有重复值的姓名列表。

五、value_counts 函数

再看 value_counts 函数。这个函数可以对一组数据进行分组计数,并返回每个唯一值出现的次数。这样的话,我们就能够更直观、更清晰地了解每个数据的重要性及其出现频率。

举个例子:

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Alice'], 'Age': [25, 30, 35, 40, 45, 25], 'Salary': [50000, 70000, 90000, 110000, 130000, 50000]} 
df = pd.DataFrame(data) 
print(df['Name'].value_counts())

输出结果为:

Alice 2 Bob 1 David 1 Charlie 1 Emily 1 Name: Name, dtype: int64

这里,我们调用 value_counts 函数,得到了每个员工姓名出现的次数。

六、corr 函数

接下来是 corr 函数。这个函数非常擅长计算两个变量之间的相关系数,可以让我们了解这些变量之间的变化趋势以及程度。相应的结果取值范围在 -1 到 1 之间,让你一眼看出它们之间的相关性强弱。

举个例子:

import pandas as pd 
data = {'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df.corr())

输出结果为:

Age Salary Age 1.000000 0.968246 Salary 0.968246 1.000000

这里,我们有一个员工信息的数据集,只关心年龄和薪水两个指标。

调用 corr 函数之后,我们得到了它们之间的相关系数,结果表明年龄和薪水之间呈现高度正相关。

七、cov 函数

最后是 cov 函数。它可以帮助我们计算两个变量之间的协方差,让我们知道它们在变化过程中是同向变化还是反向变化。换句话说,这个函数就像是一把 “探险剪刀”,总能帮我们在数据中找到很多有趣的“线索”。

举个例子:

import pandas as pd 
data = {'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df.cov())

输出结果为:

Age Salary Age 22.500000e+00 7.500000e+04 Salary 7.500000e+04 1.140000e+09

这里,我们有一个员工信息的数据集,同样只包括年龄和薪水两个指标。调用 cov 函数之后,我们得到了它们之间的协方差,结果表明年龄和薪水之间呈现正相关。

这些常用的数据统计函数在 Pandas 中非常实用,能够帮助我们轻松地处理和分析数据。

今天就分享到这里,希望对各位小伙伴有帮助!

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

布丁_码到成功

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值