1 相关包
pandas
numpy
dbfread
2 读取数据
2.1 读取excel
df = pd.DataFrame(pd.read_excel('filepath'))
2.2 读取dbf
#导入模块
from dbfread import DBF
#数据表文件名
table = DBF('test.dbf')
#遍历数据表中(没加删除标志)的记录
for record in table:
for field in record:
print(field, "=", record[field], end = ",")
print()
print("*" * 40)
#遍历数据表中(加了删除标志)的记录
for record in table.deleted:
for field in record:
print(field, "=", record[field], end = ",")
print()
3 数据清洗
3.1 删除空白值
df.dropna(axis='0', subset='columname',how='any')
axis='0’表示删除行,‘1’为列
添加subset可选择某一列判断是否有空值
how=‘any’ 表示只要有一个空值就删除
'all’表示全为空才删除
3.2 删除重复记录
1. duplicated
用于标记series中的值、dataframe中的记录行是否重复,重复未True,不重复为False
pandas.DataFrame