最近经常用到dataframe,经常用的时候百度,用完就忘了,下次用的时候还要再次百度,所以在这里整理一下,以备后需。
1 dataframe列操作
首先新建一个dataframe,读取文件
import pandas as pd
df_test = pd.DataFrame("D:/data/test.csv")
1.1 列命名
假设有五行
df_test.columns = ["id","name","age","gender","grade"]
2.2 列名更改
将id 改成doc_id,name改成doc_name,grade改成doc_grade,想改几个列名就改几个列名。
df_test.rename(columns={'id':'doc_id', 'name':'doc_name', 'grade':''doc_grade"}, inplace = True)
2.3 删除列
删除性别gender一列
df_test.drop(['gender'],axis=1)
2 dataframe行操作
2.1删除重复行
当我们从一个dataframe中提取个别字段时,需要去除重复值。
df_test = df_test.drop_duplicates()
5 删除列后重建索引
去重后索引会出现缺失,不便于之后的遍历操作,所以配合重建索引使用。
df_test = df_test.reset_index(drop = "True")