1.单列统计
1.1 求平均值和取整
我们拿求平均数的mean()
函数举例。
单列统计时,就是一列一列求这3列数据的平均数。
# 导入pandas模块,并以"pd"为该模块的简写
import pandas as pd
# 读取CSV文件,并将结果赋值给变量data
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")
# 对data中的"payment"列使用mean()函数求平均值,并赋值给pay_mean
pay_mean = data["payment"].mean()
# 使用print()输出变量pay_mean
print(pay_mean)
根据结果,单列统计data["payment"].mean()
返回的是一个值。
在实际问题中,求平均数经常会出现这种很长的数据,所以,mean( )函数后,经常用到round( )进行四舍五入。
四舍五入
四舍五入是求平均数后一种常见操作。
在Pandas模块中,round( )函数就可以四舍五入的保留小数点后的几位数字。
.round()
后缀.round()
等价于.round(0)
,表示取整
.round(n)
有三种情况:
n为正,表示保留小数点后n位小数;
n为0,取整(保留到个位数);
n为负,-1,-2……
依次表示保留到十位数,百位数……
2. 多列统计
2.1求平均值
我们拿求平均数的mean()
函数举例。
多列统计时,就是同时求这3列数据的平均数。
第8行代码将读取后的数据data的"payment", "price","cutdown_price"列,通过mean()
函数求均值,并输出。
多列访问时:
需要传入列表 ["payment","price","cutdown_price"]
# 导入pandas模块,并以"pd"为该模块的简写
import pandas as pd
# 读取CSV文件,并将结果赋值给变量data
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")
# 使用print()输出变量data中的 "payment", "price", "cutdown_price" 这3列数据的均值
print(data[["payment","price","cutdown_price"]].mean())
前面,单列统计返回一个值。
但是多列统计返回的是一个Series,而非多个值。
剩余其他函数
,max()
"payment" 列数据的最大值;
.min()
"price" 列数据的最小值;
.sum()
"cutdown_price"列数据的和。
import pandas as pd
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")
# 输出"payment"列中的最大值
print(data["payment"].max())
# 输出"price"列中的最小值
print(data["price"].min())
# 输出"cutdown_price"列中的数据之和
print(data["cutdown_price"].sum())
同理,我们可以得到:
.count()
"order_id" 列数据的个数;
.median()
"price" 列数据的中位数。
import pandas as pd
data = pd.read_csv("/Users/yequ/电商数据清洗.csv")
# 使用print()输出变量data中的 "order_id" 列的个数
print(data["order_id"].count())
# 使用print()输出变量data中的 "price" 列的中位数
print(data["price"].median())