pandas学习日记(四)

常用函数

新增列数据

# 1.直接法
# 已知DataFrame对象df,有最高温度,最低温度两个字段,需要添加温度差字段
df["温度差"] = df["最高温度"]-df["最低温度"] #或者
df.loc[:,"温度差"]=df["最高温度"]-df["最低温第"]

# 2.apply函数 
# 添加一个气温状况的字段
# 先定义返回值函数
def func(s):
	pass #根据自定义条件返回内容
df["气温状况"] = df.apply(func,axis=1) # 或
df.loc[:,"气温状况"] = df.apply(func,axis=1)

# 3.assign函数
# 一次性添加多列
df = df.assign(
	新增字段1 = lambda x:...,
	新增字段2 = lambda x:...,
	...
)

统计函数

# 1.统计汇总 输出每一列 括计数(count)、均值(mean)、标准差(std)、最小值(min)、25% 分位数(25%)、中位数(50%)、75% 分位数(75%)和最大值(max)
print(df.describe)

# 单个函数
df["字段名"].max() # 列最大
df["字段名"].mean() # 平均
df["字段名"].min() # 列最小值

# 找出一列存在哪些值
df["字段名"].unique()
# 按照值统计
df["字段名"].value_counts()
# 协方差
df[["字段1","字段2"...]],cov()
# 相关系数
df[["字段1","字段2"...]].corr()

缺失内容处理

在同级目录存在这样一张excel表:我们需要将空行列去掉,并将名字的三格补充完整和缺失成绩补充为0
在这里插入图片描述
最后效果是这样的:
在这里插入图片描述

import pandas as pd
# 首先读取文件 ,要跳过前两行空行
data = pd.read_excel("student.xlsx",skiprows=2)
# 由于前面两列是空的使用函数去除
data.dropna(axis="columns",how="all",inplace=True) # 全部是空的列
# 删除空行 学生之间有空行
data.dropna(axis="index", how="all", inplace=True) # 全部是空的行
# 由于名字是合并成一个格子,实际上只有第一个格子才有内容 以上面的内容补充
data.loc[:,"姓名"].fillna(method="ffill",inplace=True) #ffill 按上个内容补充
# 将分数为空的数据填写为0
data.loc[:,"分数"].fillna(0,inplace=True)
# 写回文件内
data.to_excel("新文件地址",index=bool) #index = True 会插入下标
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mystic Musings

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值