pandas快速处理Excel,替换Nan,转字典
pandas读取Excel
import pandas as pd
# 参数1:文件路径,参数2:sheet名
pf = pd.read_excel(path, sheet_name='sheet1')
删除指定列
# 通过列名删除指定列
pf.drop(['序号', '替代', '签名'], axis=1, inplace=True)
替换列名
# 旧列名 新列名对照
columns_map = {
'列名1': 'newname_1',
'列名2': 'newname_2',
'列名3': 'newname_3',
'列名4': 'newname_4',
'列名5': 'newname_5',
# 没有列名的情况
'Unnamed: 10': 'newname_6',
}
new_fields = list(columns_map.values())
pf.rename(columns=columns_map, inplace=True)
pf = pf[new_fields]
替换 Nan
通常使用
pf.fillna('新值')
替换表格中的空值,(Nan)。
但是,你可能会发现 fillna() 会有不好使的时候,记得加上 inplace=True
# 加上 inplace=True 表示修改原对象
pf.fillna('新值', inplace=True)
官方对 inplace 的解释
inplace : boolean, default False
If True, fill in place. Note: this will modify any other views on this object, (e.g. a no-copy slice for a column in a DataFrame).
全列输出不隐藏
- 你可能会发现,输出表格的时候会出现隐藏中间列的情况,只输出首列和尾列,中间用 … 替代。
加上下面的这句话,再打印的话,就会全列打印。
pd.set_option('display.max_columns', None)
print(pf)
将Excel转换为字典
pf_dict = pf.to_dict(orient='records')
全部代码
import pandas as pd
pf = pd.read_excel(path, sheet_name='sheet1')
columns_map = {
'列名1': 'newname_1',
'列名2': 'newname_2',
'列名3': 'newname_3',
'列名4': 'newname_4',
'列名5': 'newname_5',
# 没有列名的情况
'Unnamed: 10': 'newname_6',
}
new_fields = list(columns_map.values())
pf.drop(['序号', '替代', '签名'], axis=1, inplace=True)
pf.rename(columns=columns_map, inplace=True)
pf = pf[new_fields]
pf.fillna('Unknown', inplace=True)
# pd.set_option('display.max_columns', None)
# print(smt)
pf_dict = pf.to_dict(orient='records')