pandas自定义函数进行数据清洗

最新推荐文章于 2024-06-08 20:31:24 发布

繁梦溪

最新推荐文章于 2024-06-08 20:31:24 发布

阅读量1.9k

点赞数 1

分类专栏： Python 文章标签：数据分析 python

本文链接：https://blog.csdn.net/fg24151110876/article/details/122219007

版权

Python 专栏收录该内容

26 篇文章 5 订阅

订阅专栏

定义函数

def data_cleaning(arguments):#数据清洗函数
    arguments=str(arguments)
    # arguments=re.sub('[ \s]+',' ',arguments)#去掉多余空格，保留一个 ,正则替换

    arguments=arguments.strip(' ,;\n\t')#去掉首尾空格等

    return arguments

函数应用

clean_columns=['涉及功能','元数据分类','涉及病种','是否治理'] # 需要清洗的字段
for clean_column in clean_columns:
    logging.info('{}-数据清洗中!'.format(clean_column))
    df[clean_column]=df.apply(lambda x:data_cleaning(x[clean_column]),axis=1)

完整代码

df=df.fillna('')

import re
def data_cleaning(arguments):#数据清洗函数
    arguments=str(arguments)
    # arguments=re.sub('[ \s]+',' ',arguments)#去掉多余空格，保留一个 ,正则替换

    arguments=arguments.strip(' ,;\n\t')#去掉首尾空格等

    return arguments


clean_columns=['涉及功能','元数据分类','涉及病种','是否治理']
for clean_column in clean_columns:
    logging.info('{}-数据清洗中!'.format(clean_column))
    df[clean_column]=df.apply(lambda x:data_cleaning(x[clean_column]),axis=1)