我看到了几种接近解决我问题的方法
但是到目前为止他们还没有帮助我成功。
我相信下面的解决方案是我所需要的,但是仍然会出现一个错误(而且我没有声誉点来评论/质疑它):link
(我得到以下错误,但不知道在管理以下命令时,.copy()或添加“inplace=True”的位置:
设置为复制警告:
试图在数据帧切片的副本上设置值。
试着用.loc[row_indexer,col_indexer] = value代替
请参阅文档中的注意事项:link
所以,我试着提出我自己的版本,但我一直被卡住。给你。
我有一个按时间编制索引的数据框架,其中包含站点的列(许多不同站点的字符串值)和浮点值。time_index site val
我想浏览按站点分组的“val”列,并将任何异常值(与平均值的正负3个标准差)替换为NaN(每组)。
当我使用以下函数时,我无法使用真/假向量索引数据帧:def replace_outliers_with_nan(df, stdvs):
dfnew=pd.DataFrame()
for i, col in enumerate(df.sites.unique()):
dftmp = pd.DataFrame(df[df.sites==col])
idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
dftmp[idx==False]=np.nan #this is where the problem lies, I believe
dfnew[col] = dftmp
return dfnew
另外,我担心上面的函数在700多万行上会花费很长时间,这就是为什么我希望使用groupby函数选项。