pandas用法整理

1. 删除某一列

del df['columns'] #改变原始数据
df.drop('columns',axis=1)#删除不改表原始数据,可以通过重新赋值的方式赋值该数据
df.drop('columns',axis=1,inplace='True') #改变原始数据

2. 排序

sort_value这个method既可以对Series使用,也可以对DataFrame使用。

someseries.sort_value(ascending = True/False)
somedataframe.sort_value("col_name", ascending = True/False)
movies = pd.read_csv("imdb_1000.csv") # 载入imdb前1000电影的数据集
movies["duration"].sort_values() # 对duration这一序列单独进行正向排序
movies["duration"].sort_values(ascending = False) # 对duration进行逆向排序
movies.sort_values("duration") # 以duration为依据对整个数据集排序

3.去重

df.drop_duplicates(subset = ['AA', 'BB'], keep = "first")
表示按照df表 的AA和BB这两列作为唯一进行去重
keep 默认为 保存第一个数据 first,可以修改为保存最后一个数据 keep = ‘last’
如果将keep= False,意思是不保留任何重复值
df.drop_duplicates(subset = ['AA', 'BB'], keep = False)
一般不加参数就行了
df.drop_duplicates()

4. 返回样本行数和列数

df.shape#返回df的行数和列数
df.shape[0]#返回df的行数
df.shape[1]#返回df的列数

5. 打乱样本顺序,重置索引

dataSet.sample(frac=1).reset_index(drop=True)

6.去掉读取或写入csv文件时,去掉index和第一行的列名

通过参数indexheader来控制,如果值等于None就是去掉的意思

df = pd.read_csv('./input.csv',delimiter=",",index=None,header=None)
df.to_csv("./ouput.csv",sep=' ',index=None,header=None)

7. 统计某列的所有取值数

data['name'].value_counts()

8. 重置索引

data = data.reset_index(drop=True)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值