1、pandas读取文件
#(1) 直接读取
filename='data.csv'
df=pd.read_csv(filename)
#(2)有分隔符 ;自己设置列名;读取行数;读取哪几列
df = pd.read_csv(filename, sep=',', nrows=1000, usecols=[0, 2], names=['a', 'b'])
2、列名重命名
#rid aid
df = df.rename(columns={'rid':'Rid','aid':'Aid'})
3、是否存在用isin函数
# paper_ids
df = df[df.Rid.isin(paper_ids)]
4、去重
df = df.drop_duplicates()
5、对含有NaN的行的处理
(1)填充值
# 全部填充0
df.fillna(0)
# 单列填充
df['A'] = df['A'].fillna(0)
(2)删除所有空行
df = df.dropna()