探秘数据世界：超实用的8个Pandas数据统计函数让你轻松成为数据处理高手，赶紧收藏起来！

最新推荐文章于 2024-05-06 12:50:20 发布

布丁_码到成功

最新推荐文章于 2024-05-06 12:50:20 发布

阅读量965

点赞数 1

分类专栏：数据分析学习技巧 python学习文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/m0_59541412/article/details/131294425

版权

学习技巧同时被 3 个专栏收录

40 篇文章 2 订阅

订阅专栏

数据分析

30 篇文章 2 订阅

订阅专栏

python学习

23 篇文章 1 订阅

订阅专栏

嘿，你有用过 Python 编程语言中的 Pandas 这个神奇的数据处理库吗？它是一款广泛应用于数据科学、人工智能和机器学习领域的实用库。

今天，我将介绍其中八个最常用的数据统计函数，让你在使用 Pandas 时轻松愉快地处理数据！

一、describe 函数

首先，让我们看看 describe 函数。这个函数可以生成一组数据的描述性统计数据，包括数量、平均值、标准差、最小值和最大值。简单来说，这个函数就像是万能的，告诉你所有关于数据集的信息。

举个例子：

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df.describe())

输出结果如下：

Age Salary count 5.000000 5.000000 mean 35.000000 90000.000000 std 8.660254 34028.874679 min 25.000000 50000.000000 25% 30.000000 70000.000000 50% 35.000000 90000.000000 75% 40.000000 110000.000000 max 45.000000 130000.000000

这里，我们有一个员工信息的数据集，包括姓名、年龄和薪水。调用 describe 函数之后，我们得到了所有相关的描述性统计数据，如总数、平均值、标准差、最小值和最大值。

二、mean 函数

接下来是 mean 函数。这个函数可以计算一组数据的平均值。

举个例子：

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df['Salary'].mean())

输出结果为：

90000.0

这里，我们只关心员工的薪水，调用 mean 函数之后，我们得到了这五个员工的薪水平均值。

三、max、 min 函数

然后是 max 和 min 函数。一个是找出一组数据中的最大值，一个是找出最小值。他们总是在一起，就像是好朋友一样，充满默契，帮助你找到数据中的极限值。

举个例子：

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df['Age'].max()) 
print(df['Salary'].min())

输出结果为：

45 50000

这里，我们找到了这五个员工中年龄最大的是谁，以及薪水最低的是多少。

四、unique 函数

接下来是 unique 函数。这个函数可以让你轻松地得到一组数据的唯一值，去除重复项。

举个例子：

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Alice'], 'Age': [25, 30, 35, 40, 45, 25], 'Salary': [50000, 70000, 90000, 110000, 130000, 50000]} 
df = pd.DataFrame(data) 
print(df['Name'].unique())

输出结果为：

['Alice' 'Bob' 'Charlie' 'David' 'Emily']

这里，我们有一个员工信息的数据集，发现其中有两个重复的姓名和薪水。调用 unique 函数之后，我们得到了没有重复值的姓名列表。

五、value_counts 函数

再看 value_counts 函数。这个函数可以对一组数据进行分组计数，并返回每个唯一值出现的次数。这样的话，我们就能够更直观、更清晰地了解每个数据的重要性及其出现频率。

举个例子：

import pandas as pd 
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Alice'], 'Age': [25, 30, 35, 40, 45, 25], 'Salary': [50000, 70000, 90000, 110000, 130000, 50000]} 
df = pd.DataFrame(data) 
print(df['Name'].value_counts())

输出结果为：

Alice 2 Bob 1 David 1 Charlie 1 Emily 1 Name: Name, dtype: int64

这里，我们调用 value_counts 函数，得到了每个员工姓名出现的次数。

六、corr 函数

接下来是 corr 函数。这个函数非常擅长计算两个变量之间的相关系数，可以让我们了解这些变量之间的变化趋势以及程度。相应的结果取值范围在 -1 到 1 之间，让你一眼看出它们之间的相关性强弱。

举个例子：

import pandas as pd 
data = {'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df.corr())

输出结果为：

Age Salary Age 1.000000 0.968246 Salary 0.968246 1.000000

这里，我们有一个员工信息的数据集，只关心年龄和薪水两个指标。

调用 corr 函数之后，我们得到了它们之间的相关系数，结果表明年龄和薪水之间呈现高度正相关。

七、cov 函数

最后是 cov 函数。它可以帮助我们计算两个变量之间的协方差，让我们知道它们在变化过程中是同向变化还是反向变化。换句话说，这个函数就像是一把 “探险剪刀”，总能帮我们在数据中找到很多有趣的“线索”。

举个例子：

import pandas as pd 
data = {'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]} 
df = pd.DataFrame(data) 
print(df.cov())

输出结果为：

Age Salary Age 22.500000e+00 7.500000e+04 Salary 7.500000e+04 1.140000e+09

这里，我们有一个员工信息的数据集，同样只包括年龄和薪水两个指标。调用 cov 函数之后，我们得到了它们之间的协方差，结果表明年龄和薪水之间呈现正相关。

这些常用的数据统计函数在 Pandas 中非常实用，能够帮助我们轻松地处理和分析数据。

今天就分享到这里，希望对各位小伙伴有帮助！

布丁_码到成功

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
探秘数据世界：超实用的8个Pandas数据统计函数让你轻松成为数据处理高手，赶紧收藏起来！

调用 describe 函数之后，我们得到了所有相关的描述性统计数据，如总数、平均值、标准差、最小值和最大值。调用 corr 函数之后，我们得到了它们之间的相关系数，结果表明年龄和薪水之间呈现高度正相关。调用 cov 函数之后，我们得到了它们之间的协方差，结果表明年龄和薪水之间呈现正相关。这里，我们有一个员工信息的数据集，发现其中有两个重复的姓名和薪水。这里，我们只关心员工的薪水，调用 mean 函数之后，我们得到了这五个员工的薪水平均值。这里，我们找到了这五个员工中年龄最大的是谁，以及薪水最低的是多少。
复制链接

扫一扫