Panda
删除
# 删除 ID 列
if 'ID' in data.columns:
data = data.drop('ID', axis=1)
drop 方法的 axis 参数用于指定删除操作的方向, axis=0 代表删除行, axis=1 代表删除列
查看空值
print(data.isnull().sum())
data.isnull() : isnull() 是 pandas 数据框对象的一个方法,用于检测数据框中的每个元素是否为空值(如 NaN 或 None )。该方法会返回一个与原数据框形状相同的布尔型数据框,其中每个元素对应原数据框中相同位置的元素是否为空值,空值位置为 True ,非空值位置为 False 。
-sum() :在布尔型数据框上调用 sum() 方法,由于在 Python 中 True 被视为 1, False 被视为 0,所以 sum() 方法会对每一列中的 True 值进行求和,从而得到每一列的空值数量。最终返回一个包含每列空值数量的
补充空值
# 创建离散量数据集 Data1 并使用众数补空
Data1 = data[discrete_columns]
for col in discrete_columns:
mode_value = Data1[col].mode()[0]
Data1[col].fillna(mode_value, inplace=True)
# 创建连续量数据集 Data2 并使用中位数补空
Data2 = data[continuous_columns]
for col in continuous_columns:
median_value = Data2[col].median()
Data2[col].fillna(median_value, inplace=True)
mode()众数函数。[x]:选取第x众数
fillna():Panda库的补充函数,补充DataFrame数据
inplace=True :在原数据基础上直接补充
合并
# 合并两个数据集
Data = pd.concat([Data1, Data2], axis=1)
concat():合并函数,注意数据集方向
3911

被折叠的 条评论
为什么被折叠?



