制作数据集数据过滤和数据缺失策略-pandas-sklearn

1、 使用csv文件过滤存储

使用工具将数据集过滤分类,将csv文件另存为小文件,使用代码将文件过滤分析,示例:存储文件11.csv后,过滤column类型为heart的列取值heart
数据示例:

idcodetypevaluecreatetime
3181349XBDGW3C61055B14FCroll01/4/2022 09:41:19
3181376XBDGW3C61055B14FCheart531/4/2022 09:42:04
3191335XBDGW3C61055B14FDroll01/4/2022 16:44:34
3191336XBDGW3C61055B14ACheart1/4/2022 16:44:34
import numpy as np
import sklearn.cluster as sc
import matplotlib.pyplot as plt
import pandas as pd
df=pd.read_csv("11.csv")
df.query("(type=='heart')");
test = df.loc[0:40]
test.plot(kind='scatter', x="createtime", y='value')
plt.show()

数据有缺失,下面3中会使用Imputer用中位数代替

2、增加column

缺少数据column

import pandas as pd
import numpy as np
df=pd.DataFrame([["3181349","XBDGW3C61055B14FC"  , "roll", 0,"1/4/2022 09:41:19" ],
["3181350", "XBDGW3C61055B14FC", "heart", 67, np.nan],
["3181351","XBDGW3C61055B14FD" , "heart", 68, "1/4/2022 09:42:04"]])

df.columns=["id", "code", "type", "value", "createtime"]
print(df)

3、 创建Imputer器

from sklearn.preprocessing import Imputer
imp =Imputer(missing_values="NaN", strategy="mean",axis=0 )
#使用fit_transform()函数即可完成缺失值填充了
df["value"]=imp.fit_transform(df[["value"]])

处理多列

df[['value', '其他列']] = imp.fit_transform(df[['value', '其他列']])
print(df)

4、dropna(),drop,fillna()


#删除value中的无值
data.dropna(subset=["value"])
#删除无效的code列
data.drop("code", axis=1)
#使用中位数代替
median = data["value"].median()
data["value"].fillna(median)
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qianbo_insist

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值