python回归建模中要求输入变量为矩阵形式,输出变量为向量。
如:
modelLR = LM.LinearRegression()
modelLR.fit(X,y)
其中X为矩阵,y为向量。 LM为导入sklearn.linear_model时取的别名。
在建模时我们往往使用pandas读取数据集,pandas提供的dataFrame和Series分别对应矩阵和向量。在利用DataFrame的访问方式时,要注意两种访问方式的区别(DataFrame['key']和DataFrame[['key']])
如:
print(type(data['CO']))
print(type(data[['CO']]))
输出分别为:
Name: CO, Length: 1797, dtype: float64 <class 'pandas.core.series.Series'>
和
[1797 rows x 1 columns] <class 'pandas.core.frame.DataFrame'>
可见,DataFrame['key']得到的是向量Serise,用来做y值(建模的输出变量)的输入。DataFrame[['key']]得到的是数据框DataFrame,用来做x值(建模的输入变量)的输入。