读取部分数据
df = pd.read_csv('demo.csv',nrows=1000,usecols=['column1', 'column2', 'column3'])
缓存数据
df.to_csv('Cache/cache_demo.csv', index=False)
添加一列
df['Score'] = scoreList
遍历 DataFrame
for index, row in df.iterrows():
print(index)
print(row)
统计重复次数
df['列名'].value_counts()
统计不同的值
df['列名'].unique()
按照某一列排序
df.sort_values(by="列名")
数值化
df['cat_id'] = df['cat'].factorize()[0]
cat_id_df = df[['cat', 'cat_id']].drop_duplicates().sort_values('cat_id').reset_index(drop=True)
cat_to_id = dict(cat_id_df.values)
id_to_cat = dict(cat_id_df[['cat_id', 'cat']].values)
print("分类-id转换:\n", cat_id_df)