需求:检查每只基金前十天的数据,如果这一天只有01xxxx的源的净值,则将该基金数据留下来(一个基金当天可能有多个源数据入库;已知2源只有’020001’,'020002’两种)。
方法:用到了,dataframe的列相加(类似mysql联合主建的功能)
date_list= pd.date_range(periods=10, end=dt.datetime.today()).strftime("%Y-%m-%d").tolist()
for date in date_list:
sql="""select * from fund_nv_source where statistic_date='{}' """.format(date)
#取出该天全部数据
df=pd.read_sql(sql,engine_smyt_mutual_base_public())
#将所有data_source为'020001'或'020002'数据的fund_id、statistic_date字段取出。
fund_id_need=df[df['data_source'].isin(['020001','020002'])].loc[:,['fund_id','statistic_date']]
#将需要剔除df的fund_id与statistic_date字段相加,得到唯一索引
fund_id_need['newadd']=fund_id_need["fund_id"].map(str) +"-"+ fund_id_need["statistic_date"].map(str)
#将原df的fund_id与statistic_date字段相加,得到唯一索引
df['newadd']=df["fund_id"].map(str) +"-"+ df["statistic_date"].map(str)
#筛选出需要剔除的数据,并剔除。
df2=df[~df['newadd'].isin(fund_id_need['newadd'])]
df2.drop('newadd',axis=1,inplace=True)