线性回归
给定数据集
D
=
{
(
x
1
,
y
1
)
…
(
x
i
,
y
i
)
…
(
x
n
,
y
n
)
}
D=\left\{ (\mathfrak{x}^1, y^1) \dots (\mathfrak{x}^i, y^i) \dots (\mathfrak{x}^n, y^n) \right\}
D={(x1,y1)…(xi,yi)…(xn,yn)},线性回归试图学得
f
(
x
i
)
=
w
x
i
+
b
f(\mathfrak{x}^i) =w\mathfrak{x}^i + b
f(xi)=wxi+b 使得
f
(
x
i
)
≈
y
i
f(\mathfrak{x}^i) \approx y^i
f(xi)≈yi 。
其中,运用最小二乘的方法确定公式中的
w
w
w 和
b
b
b 。
(
w
∗
,
b
∗
)
=
a
r
g
min
w
,
b
∑
i
=
1
n
(
f
(
x
i
)
−
y
i
)
(w^*,b^*) = \underset{w,b}{arg \min}\sum_{i=1}^{n}\bigl( f(\mathfrak{x}^i) - y^i \bigr)
(w∗,b∗)=w,bargmini=1∑n(f(xi)−yi)
通过对公式中的
w
w
w 和
b
b
b 求偏导且另其值为 0 可构建方程组,通过求解该方程组可得(公式敲起来真滴费劲)
将公式中的
x
\mathfrak{x}
x换成矩阵,则可得到
对数几率回归
对数几率函数:
其中
z
z
z 为
w
T
x
+
b
w^Tx+b
wTx+b,其可以变化为:
ln
y
y
−
1
=
w
T
x
+
b
\ln \frac{y}{y-1} = w^T x + b
lny−1y=wTx+b
该公式可以写为:
ln
p
(
y
=
1
∣
x
)
p
(
y
=
0
∣
x
)
=
w
T
x
+
b
\ln \frac{p(y=1|x)}{p(y=0|x)} = w^T x + b
lnp(y=0∣x)p(y=1∣x)=wTx+b
因此可以用最大似然的方法对公式中的
w
w
w 和
b
b
b 进行估计。可以得到:
l
(
w
,
b
)
=
∑
i
=
1
m
ln
p
(
y
i
∣
x
i
;
w
,
b
)
l(w,b) = \sum_{i=1}^{m} \ln p(y_i | x_i;w,b)
l(w,b)=i=1∑mlnp(yi∣xi;w,b)
通过计算得到最大的概率可以获得。
通过令
β
=
(
w
;
b
)
,
x
^
=
(
x
;
1
)
\beta = (w;b),\hat x = (x;1)
β=(w;b),x^=(x;1) 公式
w
T
x
+
b
w^Tx + b
wTx+b 可以变换为
β
T
x
^
\beta^T \hat x
βTx^ 。再令
p
1
(
x
^
;
β
)
=
p
(
y
=
1
∣
x
^
;
β
)
p_1(\hat x;\beta) = p(y=1|\hat x;\beta)
p1(x^;β)=p(y=1∣x^;β)
p
0
(
x
^
;
β
)
=
p
(
y
=
0
∣
x
^
;
β
)
p_0(\hat x;\beta) = p(y=0|\hat x;\beta)
p0(x^;β)=p(y=0∣x^;β)则可得到
ln
p
(
y
i
∣
x
i
;
w
,
b
)
=
y
i
p
1
(
x
^
i
;
β
)
+
(
1
−
y
i
)
p
0
(
x
^
i
;
β
)
\ln p(y_i | x_i;w,b) = y_ip_1(\hat x_i;\beta) + (1-y_i)p_0(\hat x_i;\beta)
lnp(yi∣xi;w,b)=yip1(x^i;β)+(1−yi)p0(x^i;β)
则最大化公式可以变为:
l
(
β
)
=
∑
i
=
1
m
(
−
y
i
β
T
x
i
^
+
ln
(
1
+
e
β
T
x
i
^
)
)
l(\beta) = \sum_{i=1}^{m}\bigl( -y_i \beta ^T \hat{x_i} + \ln(1 + e^{\beta ^T \hat{x_i}}) \bigr)
l(β)=i=1∑m(−yiβTxi^+ln(1+eβTxi^))
可以通过牛顿迭代法求解该式。
线性判别分析
多分类学习
多分类问题可以被拆解为若干个二分类问题,并最终拼接为一个多分类问题。
对于拆解的方法主要包括:一对一(OvO),一对其余(OvR),多对多(MvM)。
纠错输出码技术
将编码的思想引入类别拆分,使得在编码过程中具有较高的容错性。