pandas自定义函数进行数据清洗

定义函数

def data_cleaning(arguments):#数据清洗函数
    arguments=str(arguments)
    # arguments=re.sub('[ \s]+',' ',arguments)#去掉多余空格,保留一个 ,正则替换

    arguments=arguments.strip(' ,;\n\t')#去掉首尾空格等

    return arguments

函数应用

clean_columns=['涉及功能','元数据分类','涉及病种','是否治理'] # 需要清洗的字段
for clean_column in clean_columns:
    logging.info('{}-数据清洗中!'.format(clean_column))
    df[clean_column]=df.apply(lambda x:data_cleaning(x[clean_column]),axis=1)

完整代码

df=df.fillna('')

import re
def data_cleaning(arguments):#数据清洗函数
    arguments=str(arguments)
    # arguments=re.sub('[ \s]+',' ',arguments)#去掉多余空格,保留一个 ,正则替换

    arguments=arguments.strip(' ,;\n\t')#去掉首尾空格等

    return arguments


clean_columns=['涉及功能','元数据分类','涉及病种','是否治理']
for clean_column in clean_columns:
    logging.info('{}-数据清洗中!'.format(clean_column))
    df[clean_column]=df.apply(lambda x:data_cleaning(x[clean_column]),axis=1)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值