pandas数据处理很方便,有些API一直记不住,做记录。有需要不定时更新!
1、df打乱顺序
pandas实现:
sample(frac)函数
#sample(frac = 1)按比例返回数据,顺序是打乱了的
#reset_index(drop=True)重新设置index,然后drop掉
res = res.sample(frac = 1).reset_index(drop=True)
sklearn包实现:
shuffle()函数
from sklearn.utils import shuffle
df = shuffle(df)
2、合并操作
merge(left,right,on='')这个有点类似数据库的几联查询操作
downstream_result_hust = pd.merge(hust_down_df, down_simi, on='downstream_product')
concat([a,b,c],axis=1)这个就是在行和列方向上合并
3、条件筛选
df中的某一列的结果在一个list中
df[df['column'].isin(list)]
4、多条件筛选
df[(条件1)&(条件2)|(条件3)]注意括号之间要使用&或者| 不能用and或者or
5、列重命名
df.rename(columns={'old_name':'new_name'},inpalce=True)
downstream_result_hust.rename(columns={'simi_company': 'company'},inplace = True)
6、列合并
多列的值按照字符串来合并
template_df['question'] = template_df['main_question'].str.cat(template_df['simi_question'], sep="||")