问题背景:
之前运行测试好好的程序,忽然出现了报错,还是merge时候的类型错误,这个bug有点蹊跷。
问题分析:
代码:进行聚类之后计算平均值与方差
tmp_df = df[['object1', 'float']].groupby(['object1']).head(20).groupby(['object1'])['float'].agg(['mean', 'sum']).reset_index()
这个输出的就是原本的数据类型:一个object,一个float64
tmp_df = http_df[['object1', 'object2', 'float']].groupby(['object1', 'object2']).head(20).groupby(['object1', 'object2'])['float'].agg(['mean']).reset_index()
这个输出就会修改object为float,
差别只在于一个是使用一个特征进行聚类,一个是使用两个特征进行聚类
问题原因(个人猜测,仅供参考):
- pandas进行聚类的时候,就算之前已经定好各个列的类型,如果里边没有数据的时候,使用一列进行聚类不会修改列的类型,但是如果同时使用两列进行聚类就会修改列的类型。
- 所以才会出现后面进行merge时候,类型不同报错
- 有数据输入的时候这个报错不会发生,没有数据的时候就会发生。