pandas用法整理

奔跑的梅花Lu

已于 2023-05-22 14:35:08 修改

阅读量478

点赞数

分类专栏：机器学习文章标签： pandas python 数据分析

于 2022-08-31 16:14:35 首次发布

本文链接：https://blog.csdn.net/shengsikandan/article/details/126626210

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 删除某一列

del df['columns'] #改变原始数据
df.drop('columns',axis=1)#删除不改表原始数据，可以通过重新赋值的方式赋值该数据
df.drop('columns',axis=1,inplace='True') #改变原始数据

2. 排序

sort_value这个method既可以对Series使用，也可以对DataFrame使用。

someseries.sort_value(ascending = True/False)
somedataframe.sort_value("col_name", ascending = True/False)
movies = pd.read_csv("imdb_1000.csv") # 载入imdb前1000电影的数据集
movies["duration"].sort_values() # 对duration这一序列单独进行正向排序
movies["duration"].sort_values(ascending = False) # 对duration进行逆向排序
movies.sort_values("duration") # 以duration为依据对整个数据集排序

3.去重

df.drop_duplicates(subset = ['AA', 'BB'], keep = "first")
表示按照df表的AA和BB这两列作为唯一进行去重
keep 默认为保存第一个数据 first，可以修改为保存最后一个数据 keep = ‘last’
如果将keep= False，意思是不保留任何重复值
df.drop_duplicates(subset = ['AA', 'BB'], keep = False)
一般不加参数就行了
df.drop_duplicates()

4. 返回样本行数和列数

df.shape#返回df的行数和列数
df.shape[0]#返回df的行数
df.shape[1]#返回df的列数

5. 打乱样本顺序,重置索引

dataSet.sample(frac=1).reset_index(drop=True)

6.去掉读取或写入csv文件时，去掉index和第一行的列名

通过参数index和header来控制，如果值等于None就是去掉的意思

df = pd.read_csv('./input.csv',delimiter=",",index=None,header=None)
df.to_csv("./ouput.csv",sep=' ',index=None,header=None)

7. 统计某列的所有取值数

data['name'].value_counts()

8. 重置索引

data = data.reset_index(drop=True)

奔跑的梅花Lu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pandas用法整理

本文主要汇总总结博主在使用pandas处理数据时的一些操作。便于以后查阅
复制链接

扫一扫

专栏目录