Pandas学习笔记（持续更新）

最新推荐文章于 2024-01-23 08:36:13 发布

KellyHu12138

最新推荐文章于 2024-01-23 08:36:13 发布

阅读量252

点赞数

分类专栏： python数据分析

本文链接：https://blog.csdn.net/qq_40668608/article/details/89499075

版权

本文详细介绍了使用Pandas进行数据处理的操作，包括读取Excel和dbf文件，数据清洗如删除空值和重复记录，以及如何导出数据到Excel。在数据清洗部分，讨论了如何依据不同条件删除空值和重复记录的多种方法。

摘要由CSDN通过智能技术生成

1 相关包

pandas
numpy
dbfread

2 读取数据

2.1 读取excel

df = pd.DataFrame(pd.read_excel('filepath'))

2.2 读取dbf

#导入模块
from dbfread import DBF

#数据表文件名
table = DBF('test.dbf')

#遍历数据表中（没加删除标志）的记录
for record in table:
    for field in record:
        print(field, "=", record[field], end = ",")
    print()

print("*" * 40)

#遍历数据表中（加了删除标志）的记录
for record in table.deleted:
    for field in record:
        print(field, "=", record[field], end = ",")
    print()

3 数据清洗

3.1 删除空白值

df.dropna(axis='0', subset='columname',how='any')

axis='0’表示删除行，‘1’为列
添加subset可选择某一列判断是否有空值
how=‘any’ 表示只要有一个空值就删除
'all’表示全为空才删除

3.2 删除重复记录

1. duplicated

用于标记series中的值、dataframe中的记录行是否重复，重复未True，不重复为False

pandas.DataFrame

最低0.47元/天解锁文章

KellyHu12138

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas学习笔记（持续更新）

1 相关包pandasnumpydbfread2 读取数据2.1 读取exceldf = pd.DataFrame(pd.read_excel('filepath'))2.2 读取dbf#导入模块from dbfread import DBF#数据表文件名table = DBF('test.dbf')#遍历数据表中（没加删除标志）的记录for record in...
复制链接

扫一扫