偏差与方差:
偏差描述预测模型的期望与理论模型之间的差距,偏差越大偏离理论值越大。
方差描述的是预测模型得离散程度,方差越大离散程度越大。(表示预测模型各个理论值比较分散)
如下图所示:
其中Low Bias表示的是低偏差Low Variance 表示的是低方差。
方差的表达式为
numpy中有var方法,np.var()若其中不设置参数,表示求方差,若np.var(ddof = 1)表示为样本方差
sk-learn中sklearn.linear_model.LinearRegression类是一个估计器,在sk-learn中所有的估计器都带有fit()和predict()方法,其中fit()可以理解为通过已有数据来进行学习,predict()则是根据已有数据的学习情况对未学习数据来进行预测
model.fit(x[1:-1],y[1:-1])其中[1:-1]表示从左边第二个开始到右边最后一个为止,-1表示最后一个数据。
样本协方差:
协方差与样本协方差的差异与方差和样本方差一样,都是分母上一个为n一个为n-1
numpy 中矩阵的乘法用dot(),转置用transpose(),逆矩阵用inv(),其中d
dao'导包的时候分别为from numpy.linalg import inv另一个为from numpy import dot, transpose
estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题,用来求R^2
多项式回归:
使用sklearn.preprocessing.PolynomialFeatures来进行特征的构造。
它是使用多项式的方法来进行的,如果有a,b两个特征,那么它的2次多项式为(1,a,b,a^2,ab, b^2)。
PolynomialFeatures有三个参数
degree:控制多项式的度
interaction_only: 默认为False,如果指定为True,那么就不会有特征自己和自己结合的项,上面的二次项中没有a^2和b^2。
include_bias:默认为True。如果为True的话,那么就会有上面的 1那一项。