1.对数据框差分
df.diff() 所有数据列差分,下一行减去上一行,默认axis=0。设置axis=1就是左右差分,可以做二阶差分df.diff(2)。
2.根据时间平滑/重采样
df10=dfnew.resample('10min',how='mean')
索引是datetime,原来的时间索引是每30秒一次,how选择mean,就是每10分钟取一次平均来将数据量变少,变得平滑。
3.改变数据框中的值
df10.ix[df10.IO_2046 > 0.12,'a'] = df10['a'] + 8
左边相当于一个条件索引,然后将不和条件的值都加上8。之前写了个循环,发现不行,没法赋值。
中途遇到了无法赋值的情况,开始我随机生成了一个数据框
df = pd.DataFrame(np.arange(0,60,2).reshape(10,3),columns=list('abc'))
df['a'][0] = 6
这样是可以赋值的
但是对我的数据,我先是生成了一个新的列,df['new'] = np.nan
然后按照上面的就无法赋值,会一直报错
TypeError: cannot perform reduce with flexible type
查了半天说是没有指明类型,看来一下type是np.flaot64,我想赋的值也是flaot啊,为啥呢???
后来就转.astype(flaot),还是无果,后来我就先赋值为0,当然我后面先赋值为0,也是这个报错
然后换了一种数据的提取方式
df.ix [ 1 , 'a' ]
就可以赋值了,其实也不是很懂
4.后面就开始跑算法,明明在数据处理上很用心,感觉思考了很多假设,觉得符合逻辑,为什么效果不明显。可能还需改进算法。这个明天继续的思考