嘿,你有用过 Python 编程语言中的 Pandas 这个神奇的数据处理库吗?它是一款广泛应用于数据科学、人工智能和机器学习领域的实用库。
今天,我将介绍其中八个最常用的数据统计函数,让你在使用 Pandas 时轻松愉快地处理数据!
一、describe 函数
首先,让我们看看 describe 函数。这个函数可以生成一组数据的描述性统计数据,包括数量、平均值、标准差、最小值和最大值。简单来说,这个函数就像是万能的,告诉你所有关于数据集的信息。
举个例子:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]}
df = pd.DataFrame(data)
print(df.describe())
输出结果如下:
Age Salary count 5.000000 5.000000 mean 35.000000 90000.000000 std 8.660254 34028.874679 min 25.000000 50000.000000 25% 30.000000 70000.000000 50% 35.000000 90000.000000 75% 40.000000 110000.000000 max 45.000000 130000.000000
这里,我们有一个员工信息的数据集,包括姓名、年龄和薪水。调用 describe 函数之后,我们得到了所有相关的描述性统计数据,如总数、平均值、标准差、最小值和最大值。
二、mean 函数
接下来是 mean 函数。这个函数可以计算一组数据的平均值。
举个例子:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]}
df = pd.DataFrame(data)
print(df['Salary'].mean())
输出结果为:
90000.0
这里,我们只关心员工的薪水,调用 mean 函数之后,我们得到了这五个员工的薪水平均值。
三、max、 min 函数
然后是 max 和 min 函数。一个是找出一组数据中的最大值,一个是找出最小值。他们总是在一起,就像是好朋友一样,充满默契,帮助你找到数据中的极限值。
举个例子:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]}
df = pd.DataFrame(data)
print(df['Age'].max())
print(df['Salary'].min())
输出结果为:
45 50000
这里,我们找到了这五个员工中年龄最大的是谁,以及薪水最低的是多少。
四、unique 函数
接下来是 unique 函数。这个函数可以让你轻松地得到一组数据的唯一值,去除重复项。
举个例子:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Alice'], 'Age': [25, 30, 35, 40, 45, 25], 'Salary': [50000, 70000, 90000, 110000, 130000, 50000]}
df = pd.DataFrame(data)
print(df['Name'].unique())
输出结果为:
['Alice' 'Bob' 'Charlie' 'David' 'Emily']
这里,我们有一个员工信息的数据集,发现其中有两个重复的姓名和薪水。调用 unique 函数之后,我们得到了没有重复值的姓名列表。
五、value_counts 函数
再看 value_counts 函数。这个函数可以对一组数据进行分组计数,并返回每个唯一值出现的次数。这样的话,我们就能够更直观、更清晰地了解每个数据的重要性及其出现频率。
举个例子:
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Alice'], 'Age': [25, 30, 35, 40, 45, 25], 'Salary': [50000, 70000, 90000, 110000, 130000, 50000]}
df = pd.DataFrame(data)
print(df['Name'].value_counts())
输出结果为:
Alice 2 Bob 1 David 1 Charlie 1 Emily 1 Name: Name, dtype: int64
这里,我们调用 value_counts 函数,得到了每个员工姓名出现的次数。
六、corr 函数
接下来是 corr 函数。这个函数非常擅长计算两个变量之间的相关系数,可以让我们了解这些变量之间的变化趋势以及程度。相应的结果取值范围在 -1 到 1 之间,让你一眼看出它们之间的相关性强弱。
举个例子:
import pandas as pd
data = {'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]}
df = pd.DataFrame(data)
print(df.corr())
输出结果为:
Age Salary Age 1.000000 0.968246 Salary 0.968246 1.000000
这里,我们有一个员工信息的数据集,只关心年龄和薪水两个指标。
调用 corr 函数之后,我们得到了它们之间的相关系数,结果表明年龄和薪水之间呈现高度正相关。
七、cov 函数
最后是 cov 函数。它可以帮助我们计算两个变量之间的协方差,让我们知道它们在变化过程中是同向变化还是反向变化。换句话说,这个函数就像是一把 “探险剪刀”,总能帮我们在数据中找到很多有趣的“线索”。
举个例子:
import pandas as pd
data = {'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 70000, 90000, 110000, 130000]}
df = pd.DataFrame(data)
print(df.cov())
输出结果为:
Age Salary Age 22.500000e+00 7.500000e+04 Salary 7.500000e+04 1.140000e+09
这里,我们有一个员工信息的数据集,同样只包括年龄和薪水两个指标。调用 cov 函数之后,我们得到了它们之间的协方差,结果表明年龄和薪水之间呈现正相关。
这些常用的数据统计函数在 Pandas 中非常实用,能够帮助我们轻松地处理和分析数据。
今天就分享到这里,希望对各位小伙伴有帮助!