关于数据清理，你必须知道这些！

小白fighting.

已于 2022-12-04 18:55:50 修改

阅读量289

点赞数

分类专栏： python 文章标签： pandas python 数据分析

于 2022-12-04 11:14:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51971702/article/details/128170267

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

兄弟姐妹们，盲猜又到了期末写大作业的时候了吧(别问我怎么知道)。

看到这里，你已经为你省下了一大笔时间了！下面的功能绝对省去了你很大一部分的查找时间(千万不能让你的小伙伴们知道)

正题开始(可能看上去有些枯燥，但是实用就完事了！)

1. 随机获取数据索引（可以用于打乱数据）
np.random.permutation(len(df)) 返回类型为ndarray ，可以用list()或者.tolist()转成列表

2. 自定义数据的索引
df.index = range(df.shape[0])

3. 获取指定索引对应的所有行
df.iloc[index_list] 返回类型为DataFrame

4. 获取满足某一条件的数据对应的所有行
df[df['course_id']=="课程106"] 其中df['course_id']=="课程106"返回的是一列值为False和True的Series类型数据，当然你也可以用list来进行表示

5. 获取DataFrame指定行区间和列区间对应的数据
df.iloc[3:5,2:4] 获取前两行前一列对应的数据逗号前后也可以用列表来表示df.iloc[[3,4],[2,3]]

6. 对数据按照行进行去重
df.drop_duplicates(index=True) index参数表示在原有的df类型上进行修改

7. 删除满足指定条件对应数据的行
df.drop(index=df[df["course_price"]==0].index,inplace=True) index表示删除的行对应的索引列表(可迭代对象都可以)

8. 删除有NaN数据的所有行
df.dropna(inplace=True)

9. 统计某一列数据相同值出现的次数
df[colunm_name].value_counts() 返回值为Series可以通过pd.Dataframe(df[colunm_name].value_counts())转为DataFrame

10. 对某个DataFrame对象增加一行数据
df.append(new_df,ignore_index=True) 其中new_df必须也是DataFrame对象，同时列名需要与df对应

11. 增加一列
df[column_name] = data 其中column_name对应新增加字段的列名，data为增加的数据

看到这里也挺不容易的，希望上述内容能真的帮助到你，如果你有数据分析或者其他计算机学习方面的问题，可以向我留言哦！感谢大家的支持。

小白fighting.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
关于数据清理，你必须知道这些！

当你有庞大的数据无从下手时！！！数据清理一定能让你豁然开朗！
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。