Python数据分析基础学习笔记(?)--常见Pandas的六种统计函数(百职帮自用)

1.单列统计

1.1 求平均值和取整

我们拿求平均数的mean()函数举例。

单列统计时,就是一列一列求这3列数据的平均数。

# 导入pandas模块,并以"pd"为该模块的简写
import pandas as pd

# 读取CSV文件,并将结果赋值给变量data
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 对data中的"payment"列使用mean()函数求平均值,并赋值给pay_mean
pay_mean = data["payment"].mean()
# 使用print()输出变量pay_mean
print(pay_mean)

根据结果,单列统计data["payment"].mean()返回的是一个值。

在实际问题中,求平均数经常会出现这种很长的数据,所以,mean( )函数后,经常用到round( )进行四舍五入。

四舍五入

四舍五入是求平均数后一种常见操作。
在Pandas模块中,round( )函数就可以四舍五入的保留小数点后的几位数字。

.round()

后缀.round()等价于.round(0),表示取整

.round(n)有三种情况:

n为正,表示保留小数点后n位小数;

n为0,取整(保留到个位数);

n为负,-1,-2……依次表示保留到十位数,百位数……

2. 多列统计

2.1求平均值

我们拿求平均数的mean()函数举例。

多列统计时,就是同时求这3列数据的平均数。

第8行代码将读取后的数据data的"payment", "price","cutdown_price"列,通过mean()函数求均值,并输出。

多列访问时:
需要传入列表 ["payment","price","cutdown_price"]

# 导入pandas模块,并以"pd"为该模块的简写
import pandas as pd

# 读取CSV文件,并将结果赋值给变量data
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 使用print()输出变量data中的 "payment", "price", "cutdown_price" 这3列数据的均值
print(data[["payment","price","cutdown_price"]].mean())

前面,单列统计返回一个值。

但是多列统计返回的是一个Series,而非多个值。

剩余其他函数

,max()
"payment" 列数据的最大值;
.min()
"price" 列数据的最小值;
.sum()
"cutdown_price"列数据的和。

import pandas as pd
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")
# 输出"payment"列中的最大值
print(data["payment"].max())

# 输出"price"列中的最小值
print(data["price"].min())

# 输出"cutdown_price"列中的数据之和
print(data["cutdown_price"].sum())

同理,我们可以得到:

.count()

"order_id" 列数据的个数;

.median()

"price" 列数据的中位数。

import pandas as pd
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")

# 使用print()输出变量data中的 "order_id" 列的个数
print(data["order_id"].count())
# 使用print()输出变量data中的 "price" 列的中位数
print(data["price"].median())

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值