兄弟姐妹们,盲猜又到了期末写大作业的时候了吧(别问我怎么知道)。
看到这里,你已经为你省下了一大笔时间了!下面的功能绝对省去了你很大一部分的查找时间(千万不能让你的小伙伴们知道)
正题开始(可能看上去有些枯燥,但是实用就完事了!)
1. 随机获取数据索引(可以用于打乱数据)
np.random.permutation(len(df)) 返回类型为ndarray ,可以用list()或者.tolist()转成列表
2. 自定义数据的索引
df.index = range(df.shape[0])
3. 获取指定索引对应的所有行
df.iloc[index_list] 返回类型为DataFrame
4. 获取满足某一条件的数据对应的所有行
df[df['course_id']=="课程106"] 其中df['course_id']=="课程106"返回的是一列值为False和True的Series类型数据,当然你也可以用list来进行表示
5. 获取DataFrame指定行区间和列区间对应的数据
df.iloc[3:5,2:4] 获取前两行前一列对应的数据 逗号前后也可以用列表来表示df.iloc[[3,4],[2,3]]
6. 对数据按照行进行去重
df.drop_duplicates(index=True) index参数表示在原有的df类型上进行修改
7. 删除满足指定条件对应数据的行
df.drop(index=df[df["course_price"]==0].index,inplace=True) index表示删除的行对应的索引列表(可迭代对象都可以)
8. 删除有NaN数据的所有行
df.dropna(inplace=True)
9. 统计某一列数据相同值出现的次数
df[colunm_name].value_counts() 返回值为Series可以通过pd.Dataframe(df[colunm_name].value_counts())转为DataFrame
10. 对某个DataFrame对象增加一行数据
df.append(new_df,ignore_index=True) 其中new_df必须也是DataFrame对象,同时列名需要与df对应
11. 增加一列
df[column_name] = data 其中column_name对应新增加字段的列名,data为增加的数据
看到这里也挺不容易的,希望上述内容能真的帮助到你,如果你有数据分析或者其他计算机学习方面的问题,可以向我留言哦!感谢大家的支持。