关于数据清理,你必须知道这些!

兄弟姐妹们,盲猜又到了期末写大作业的时候了吧(别问我怎么知道)。

看到这里,你已经为你省下了一大笔时间了!下面的功能绝对省去了你很大一部分的查找时间(千万不能让你的小伙伴们知道)

正题开始(可能看上去有些枯燥,但是实用就完事了!)

1. 随机获取数据索引(可以用于打乱数据
np.random.permutation(len(df))   返回类型为ndarray ,可以用list()或者.tolist()转成列表

2. 自定义数据的索引
df.index = range(df.shape[0])

3. 获取指定索引对应的所有
df.iloc[index_list]   返回类型为DataFrame

4. 获取满足某一条件的数据对应的所有
df[df['course_id']=="课程106"]  其中df['course_id']=="课程106"返回的是一列值为False和True的Series类型数据,当然你也可以用list来进行表示

5. 获取DataFrame指定区间和列区间对应的数据
df.iloc[3:5,2:4]  获取前两行前一列对应的数据  逗号前后也可以用列表来表示df.iloc[[3,4],[2,3]]

6. 对数据按照行进行去重
df.drop_duplicates(index=True)  index参数表示在原有的df类型上进行修改

7. 删除满足指定条件对应数据的
df.drop(index=df[df["course_price"]==0].index,inplace=True)  index表示删除的行对应的索引列表(可迭代对象都可以)

8. 删除有NaN数据的所有行
df.dropna(inplace=True)

9. 统计某一列数据相同值出现的次数
df[colunm_name].value_counts()  返回值为Series可以通过pd.Dataframe(df[colunm_name].value_counts())转为DataFrame

10. 对某个DataFrame对象增加一行数据
df.append(new_df,ignore_index=True)  其中new_df必须也是DataFrame对象,同时列名需要与df对应

11. 增加一列
df[column_name] = data  其中column_name对应新增加字段的列名,data为增加的数据

看到这里也挺不容易的,希望上述内容能真的帮助到你,如果你有数据分析或者其他计算机学习方面的问题,可以向我留言哦!感谢大家的支持。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值