Udacity机器学习入门笔记5-回归
1.sklearn 广义线性模型
以下是一组用于线性回归的方法,这些方法中,目标值是一组特征的线性组合。在数学公式中,
y
^
\hat{y}
y^是预测值
y
^
(
w
,
x
)
=
w
0
+
w
1
x
1
+
…
+
w
p
x
p
\hat{y}(w, x)=w_{0}+w_{1} x_{1}+\ldots+w_{p} x_{p}
y^(w,x)=w0+w1x1+…+wpxp
其中,向量
w
=
(
w
1
,
…
,
w
p
)
w=\left(w_{1}, \dots, w_{p}\right)
w=(w1,…,wp)作为coef_,
w
0
w_0
w0为截距intercept_。
1.1 普通最小二乘
LinearRegression 用影响系数
w
=
(
w
1
,
…
,
w
p
)
w=\left(w_{1}, \dots, w_{p}\right)
w=(w1,…,wp)拟合一个线性模型,该模型最小化数据集中观察到的目标和通过线性近似预测的目标之间总和残留的平方。数学上它解决形式:
min
w
∥
X
w
−
y
∥
2
2
\min _{w}\|X w-y\|_{2}^{2}
wmin∥Xw−y∥22
1.2 脊回归(ridge regression)
Ridge回归通过对系数的大小判罚解决了普通最小二乘法一些问题。脊系数最小化带有惩罚的残差的平方和:
min
w
∥
X
w
−
y
∥
2
2
+
α
∥
w
∥
2
2
\min _{w}\|X w-y\|_{2}^{2}+\alpha\|w\|_{2}^{2}
wmin∥Xw−y∥22+α∥w∥22
复杂性参数
α
≥
0
\alpha \geq 0
α≥0 控制收缩量:较大的值
α
\alpha
α ,收缩的量越大,因此系数变得更稳健于共线性
2.Udacity test
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit(feature_train,target_train)
print reg.score(feature_train,target_train)
print reg.score(feature_test,target_test)
参考文献
sklearn Generalized Linear Models https://scikit-learn.org/stable/modules/linear_model.html