Python数据分析基础学习笔记（？）--常见Pandas的六种统计函数（百职帮自用）

最新推荐文章于 2024-07-29 02:34:50 发布

茂茂学python

最新推荐文章于 2024-07-29 02:34:50 发布

阅读量277

点赞数 10

文章标签：数据分析学习笔记

本文链接：https://blog.csdn.net/2301_82010220/article/details/136055411

版权

1.单列统计

1.1 求平均值和取整

我们拿求平均数的mean()函数举例。

单列统计时，就是一列一列求这3列数据的平均数。

# 导入pandas模块，并以"pd"为该模块的简写
import pandas as pd

# 读取CSV文件，并将结果赋值给变量data
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 对data中的"payment"列使用mean()函数求平均值，并赋值给pay_mean
pay_mean = data["payment"].mean()
# 使用print()输出变量pay_mean
print(pay_mean)

根据结果，单列统计data["payment"].mean()返回的是一个值。

在实际问题中，求平均数经常会出现这种很长的数据，所以，mean( )函数后，经常用到round( )进行四舍五入。

四舍五入

四舍五入是求平均数后一种常见操作。
在Pandas模块中，round( )函数就可以四舍五入的保留小数点后的几位数字。

.round()

后缀.round()等价于.round(0)，表示取整

.round(n)有三种情况：

n为正，表示保留小数点后n位小数；

n为0，取整（保留到个位数）；

n为负，-1,-2……依次表示保留到十位数，百位数……

2. 多列统计

2.1求平均值

我们拿求平均数的mean()函数举例。

多列统计时，就是同时求这3列数据的平均数。

第8行代码将读取后的数据data的"payment", "price","cutdown_price"列，通过mean()函数求均值，并输出。

多列访问时：
需要传入列表 ["payment","price","cutdown_price"]

# 导入pandas模块，并以"pd"为该模块的简写
import pandas as pd

# 读取CSV文件，并将结果赋值给变量data
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 使用print()输出变量data中的 "payment", "price", "cutdown_price" 这3列数据的均值
print(data[["payment","price","cutdown_price"]].mean())

前面，单列统计返回一个值。

但是多列统计返回的是一个Series，而非多个值。

剩余其他函数

,max()
"payment" 列数据的最大值；
.min()
"price" 列数据的最小值；
.sum()
"cutdown_price"列数据的和。

import pandas as pd
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")
# 输出"payment"列中的最大值
print(data["payment"].max())

# 输出"price"列中的最小值
print(data["price"].min())

# 输出"cutdown_price"列中的数据之和
print(data["cutdown_price"].sum())

同理，我们可以得到：

.count()

"order_id" 列数据的个数；

.median()

"price" 列数据的中位数。

import pandas as pd
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 使用print()输出变量data中的 "order_id" 列的个数
print(data["order_id"].count())
# 使用print()输出变量data中的 "price" 列的中位数
print(data["price"].median())