期中通宵两宿续命模式开启
决策树
线性回归
最小二乘法直接解出系数
没有常数项
w ^ = x T y ∣ ∣ x ∣ ∣ 2 2 \hat w = \frac{x^Ty}{||x||_2^2} w^=∣∣x∣∣22xTy
有常数项
一元
w
^
=
(
x
−
x
ˉ
⋅
1
)
T
(
y
−
y
ˉ
⋅
1
)
∣
∣
x
−
x
ˉ
⋅
1
∣
∣
2
2
\hat w = \frac{(x-\bar x·1)^T(y-\bar y·1)}{||x-\bar x·1||_2^2}
w^=∣∣x−xˉ⋅1∣∣22(x−xˉ⋅1)T(y−yˉ⋅1)
b
^
=
y
ˉ
−
w
^
x
ˉ
\hat b = \bar y - \hat w \bar x
b^=yˉ−w^xˉ
多元
w
^
=
(
X
T
X
)
−
1
X
T
y
\hat w = (X^TX)^{-1}X^Ty
w^=(XTX)−1XTy
还有正则化的方法==(记得补充呀)==
逻辑回归——分类任务
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)
将线性回归预测值与分类任务的真实标记联系起来——所以需要一个单调可微的函数(可微是便于求导找到最优解)所以找到了对数几率函数——Sigmoid函数
y
=
f
(
x
)
=
1
1
+
e
−
(
w
T
x
+
b
)
y=f(x) = \frac{1}{1+e^{-(w^Tx+b)}}
y=f(x)=1+e−(wTx+b)1
这里的y表示的是将样本分类到正例的概率,用极大似然法进行估计(将w加一维多加个常数项,x取1)
用梯度下降得到递归公式(初始值设置为全是1的向量)
θ
t
+
1
=
θ
t
−
α
∂
L
(
θ
)
∂
θ
=
θ
t
−
α
∑
i
=
1
n
(
y
i
−
σ
(
θ
T
x
i
)
)
x
i
\theta^{t+1}=\theta^t-\alpha\frac{\partial L(\theta)}{\partial\theta}=\theta^t-\alpha\sum_{i=1}^n(y_i-\sigma(\theta^Tx_i))x_i
θt+1=θt−α∂θ∂L(θ)=θt−αi=1∑n(yi−σ(θTxi))xi
需要自己设置步长和最大迭代次数
也可以用牛顿迭代法
β
t
+
1
=
β
t
−
(
∂
2
l
(
β
)
∂
β
∂
β
T
)
−
1
∂
l
(
β
)
∂
β
\beta^{t+1}=\beta^t-(\frac{\partial^2l(\beta)}{\partial\beta\partial\beta^T})^{-1}\frac{\partial l(\beta)}{\partial \beta}
βt+1=βt−(∂β∂βT∂2l(β))−1∂β∂l(β)
∂
l
(
β
)
∂
β
=
−
∑
i
=
1
m
x
i
^
(
y
i
−
p
1
(
x
i
^
;
β
)
)
\frac{\partial l(\beta)}{\partial \beta}=-\sum_{i=1}^m\hat{x_i}(y_i-p_1(\hat{x_i};\beta))
∂β∂l(β)=−i=1∑mxi^(yi−p1(xi^;β))
∂
2
l
(
β
)
∂
β
∂
β
T
=
∑
i
=
1
m
x
i
^
x
i
^
T
p
1
(
x
i
^
;
β
)
(
1
−
p
1
(
x
i
^
;
β
)
)
\frac{\partial^2l(\beta)}{\partial\beta\partial\beta^T}=\sum_{i=1}^m\hat{x_i}\hat{x_i}^Tp_1(\hat{x_i};\beta)(1-p_1(\hat{x_i};\beta))
∂β∂βT∂2l(β)=i=1∑mxi^xi^Tp1(xi^;β)(1−p1(xi^;β))
这里二阶导是步长,一阶导是方向
线性判别 LDA
思想:找到一条线,样本点在上面投影,同类靠近,异类远离
目标函数:
J
=
∣
∣
w
T
μ
0
−
w
T
μ
1
∣
∣
2
2
w
T
Σ
0
w
+
w
T
Σ
1
w
=
w
T
(
μ
0
−
μ
1
)
(
μ
0
−
μ
1
)
T
w
w
T
(
Σ
0
+
Σ
1
)
w
J=\frac{||w^T\mu_0-w^T\mu_1||_2^2}{w^T\Sigma_0w+w^T\Sigma_1w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}
J=wTΣ0w+wTΣ1w∣∣wTμ0−wTμ1∣∣22=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw
求得
w
=
S
w
−
1
(
μ
0
−
μ
1
)
w = S_w^{-1}(\mu_0-\mu_1)
w=Sw−1(μ0−μ1)
其中
μ
0
\mu_0
μ0和
μ
1
\mu_1
μ1是各类的向量均值,
S
w
S_w
Sw是类内散度矩阵
S
w
=
Σ
0
+
Σ
1
=
∑
x
∈
X
0
(
x
−
μ
0
)
(
x
−
μ
0
)
T
+
∑
x
∈
X
1
(
x
−
μ
1
)
(
x
−
μ
1
)
T
S_w =\Sigma_0+\Sigma_1=\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^T
Sw=Σ0+Σ1=x∈X0∑(x−μ0)(x−μ0)T+x∈X1∑(x−μ1)(x−μ1)T