我正在用熊猫建立一个多元线性回归模型:import pandas as pd
import statsmodels.api as sm
climate = pd.read_csv("climate_change.csv")
climate_train = climate.query('Year <= 2006')
climate_test = climate.query('Year > 2006')
y = climate_train['Temp']
x = climate_train[['MEI', 'N2O', 'TSI', 'Aerosols']]
x = sm.add_constant(x)
model2 = sm.OLS(y, x).fit()
model2.summary()
我想在我的测试数据集上测试它:
^{pr2}$
但我得到了以下错误:ValueError: shapes (24,11) and (5,) not aligned: 11 (dim 1) != 5 (dim 0)
从this question我怀疑这可能与我没有向测试数据集添加常量有关,但是model2.predict(sm.add_constant(climate_test))
也不管用。如果我显式列出自变量,它会起作用:model2.predict(sm.add_constant(climate_test[['MEI', 'N2O', 'TSI', 'Aerosols']]))
但是由于model2已经“知道”了这些变量,我看不出为什么要在方法调用中重复这些变量。在
如何预测()而不显式调用自变量?在