数据清洗代码,一共涵盖8个场景,分别是:
删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、删除列中的空格、用字符串连接两列(带条件)、转换时间戳(从字符串到日期时间格式)
删除多列
在进行数据分析时,并非所有的列都有用,用df.drop可以方便地删除你指定的列。
def drop_multiple_col(col_names_list, df):
'''
AIM -> Drop multiple columns based on their column names
INPUT -> List of column names, df
OUTPUT -> updated df with dropped columns
------
'''
df.drop(col_names_list, axis=1, inplace=True)
return df
转换数据类型
当数据集变大时,需要转换数据类型来节省内存。
def change_dtypes(col_int, col_float, df):
'''
AIM -