合并表格数据
在一些数据处理的情况中,通常需要通过某个关键字合并多个表
- 方法一
df_train=pd.concat([res[9],res[10],res[11]],axis=1,ignore_index=True)
df_train.columns=['loan_8','loan_9','loan_10']
df_train.fillna(0,inplace=True)
这种方法是通过index合并表,默认是outer链接
- 方法二
air = pd.merge(airres,airstore,on='air_store_id')
这种方法通过自定义的列,来合并多个表格
- on=None 指定连接的列名,若两列希望连接的列名不一样,可以通过left_on和right_on 来具体指定
- how=’inner’,参数指的是左右两个表主键那一列中存在不重合的行时,取结果的方式:inner表示交集,outer 表示并集,left 和right 表示取某一边。
举例如下
条件索引
dates = pd.read_csv('../input/date_info.csv')
dates.loc[dates.holiday_flg==1].loc[(dates.day_of_week !='Saturday')].loc[dates.day_of_week !='Sunday']
pandas.loc 是通过label索引的
pandas.iloc是通过整数索引的
Groupby
as_index: True表示会把用作分类的列也当作index
apply, applymap 和 map
apply用于pandas的一维向量,如果想作用在每个元素上,可以用lambda表达式
applymap作用于pandas的每一个元素
map主要是作用于series的每一个元素