1. 删除某一列
del df['columns'] #改变原始数据
df.drop('columns',axis=1)#删除不改表原始数据,可以通过重新赋值的方式赋值该数据
df.drop('columns',axis=1,inplace='True') #改变原始数据
2. 排序
sort_value这个method既可以对Series使用,也可以对DataFrame使用。
someseries.sort_value(ascending = True/False)
somedataframe.sort_value("col_name", ascending = True/False)
movies = pd.read_csv("imdb_1000.csv") # 载入imdb前1000电影的数据集
movies["duration"].sort_values() # 对duration这一序列单独进行正向排序
movies["duration"].sort_values(ascending = False) # 对duration进行逆向排序
movies.sort_values("duration") # 以duration为依据对整个数据集排序
3.去重
df.drop_duplicates(subset = ['AA', 'BB'], keep = "first")
表示按照df表 的AA和BB这两列作为唯一进行去重
keep 默认为 保存第一个数据 first,可以修改为保存最后一个数据 keep = ‘last’
如果将keep= False,意思是不保留任何重复值
df.drop_duplicates(subset = ['AA', 'BB'], keep = False)
一般不加参数就行了
df.drop_duplicates()
4. 返回样本行数和列数
df.shape#返回df的行数和列数
df.shape[0]#返回df的行数
df.shape[1]#返回df的列数
5. 打乱样本顺序,重置索引
dataSet.sample(frac=1).reset_index(drop=True)
6.去掉读取或写入csv文件时,去掉index和第一行的列名
通过参数index
和header
来控制,如果值等于None
就是去掉的意思
df = pd.read_csv('./input.csv',delimiter=",",index=None,header=None)
df.to_csv("./ouput.csv",sep=' ',index=None,header=None)
7. 统计某列的所有取值数
data['name'].value_counts()
8. 重置索引
data = data.reset_index(drop=True)