Pandas学习笔记(持续更新)

本文详细介绍了使用Pandas进行数据处理的操作,包括读取Excel和dbf文件,数据清洗如删除空值和重复记录,以及如何导出数据到Excel。在数据清洗部分,讨论了如何依据不同条件删除空值和重复记录的多种方法。
摘要由CSDN通过智能技术生成

1 相关包

pandas
numpy
dbfread


2 读取数据

2.1 读取excel
df = pd.DataFrame(pd.read_excel('filepath'))
2.2 读取dbf
#导入模块
from dbfread import DBF

#数据表文件名
table = DBF('test.dbf')

#遍历数据表中(没加删除标志)的记录
for record in table:
    for field in record:
        print(field, "=", record[field], end = ",")
    print()

print("*" * 40)

#遍历数据表中(加了删除标志)的记录
for record in table.deleted:
    for field in record:
        print(field, "=", record[field], end = ",")
    print()

3 数据清洗

3.1 删除空白值
df.dropna(axis='0', subset='columname',how='any')

axis='0’表示删除行,‘1’为列
添加subset可选择某一列判断是否有空值
how=‘any’ 表示只要有一个空值就删除
'all’表示全为空才删除

3.2 删除重复记录
1. duplicated

用于标记series中的值、dataframe中的记录行是否重复,重复未True,不重复为False

pandas.DataFrame
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器学习模型机器
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值