线性回归
引例:预测房屋的价格,影响价格的因素有很多,比如面积、地段、房龄等,设房屋面积x1,房龄x2,售出价格y,线性回归假设各个输出和输入的线性关系为
y
^
=
x
1
w
1
+
x
2
w
2
+
b
\begin{array}{c} \hat{y}=x_{1} w_{1}+x_{2} w_{2}+b \end{array}
y^=x1w1+x2w2+b
w1和w2是权重,b是偏差,
y
^
\hat{y}
y^是对真实值的预测。
- 线性回归是一个单层神经网络。
- 线性回归的输出是一个连续值。
softmax回归
softmax回归本质上是一个分类问题,而线性回归是回归问题。softmax回归的输出数量等于类别数量,相当于属于某一类别的概率(后面说怎么来的),比如4个特征的3个输出的表达式为 o 1 = x 1 w 11 + x 2 w 21 + x 3 w 31 + x 4 w 41 + b 1 o 2 = x 1 w 12 + x 2 w 22 + x 3 w 32 + x 4 w 42 + b 2 o 3 = x 1 w 13 + x 2 w 23 + x 3 w 33 + x 4 w 43 + b 3 . \begin{array}{l} o_{1}=x_{1} w_{11}+x_{2} w_{21}+x_{3} w_{31}+x_{4} w_{41}+b_{1} \\ o_{2}=x_{1} w_{12}+x_{2} w_{22}+x_{3} w_{32}+x_{4} w_{42}+b_{2} \\ o_{3}=x_{1} w_{13}+x_{2} w_{23}+x_{3} w_{33}+x_{4} w_{43}+b_{3} . \end{array} o1=x1w11+x2w21+x3w31+x4w41+b1o2=x1w12+x2w22+x3w32+x4w42+b2o3=x1w13+x2w23+x3w33+x4w43+b3.
- sofymax也是单层神经网络
o i o_{i} oi可以表示属于某个类别的置信度,将输出最大值作为预测输出。比如如果 o 1 o_{1} o1, o 2 o_{2} o2, o 3 o_{3} o3分别为0.1,10,0.1,那么预测类别为2.由于这些输出值的差异比较大,可以使用softmax运算符将输出值变换成值为正且和为的概率分布:
y ^ 1 , y ^ 2 , y ^ 3 = softmax ( o 1 , o 2 , o 3 ) \hat{y}_{1}, \hat{y}_{2}, \hat{y}_{3}=\operatorname{softmax}\left(o_{1}, o_{2}, o_{3}\right) y^1,y^2,y^3=softmax(o1,o2,o3)其中 y ^ 1 = exp ( o 1 ) ∑ i = 1 3 exp ( o i ) , y ^ 2 = exp ( o 2 ) ∑ i = 1 3 exp ( o i ) , y ^ 3 = exp ( o 3 ) ∑ i = 1 3 exp ( o i ) . \hat{y}_{1}=\frac{\exp \left(o_{1}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}, \quad \hat{y}_{2}=\frac{\exp \left(o_{2}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}, \quad \hat{y}_{3}=\frac{\exp \left(o_{3}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)} . y^1=∑i=13exp(oi)exp(o1),y^2=∑i=13exp(oi)exp(o2),y^3=∑i=13exp(oi)exp(o3).
如果 y ^ 2 \hat{y}_{2} y^2=0.8,表示预测为类别2的概率为80%。
softmax的标准形式
o ( i ) = x ( i ) W + b y ^ ( i ) = softmax ( o ( i ) ) \begin{array}{l} \boldsymbol{o}^{(i)}=\boldsymbol{x}^{(i)} \boldsymbol{W}+\boldsymbol{b} \\ \hat{\boldsymbol{y}}^{(i)}=\operatorname{softmax}\left(\boldsymbol{o}^{(i)}\right) \end{array} o(i)=x(i)W+by^(i)=softmax(o(i))
对于上面特例中的权重和偏差为: W = [ w 11 w 12 w 13 w 21 w 22 w 23 w 31 w 32 w 33 w 41 w 42 w 43 ] , b = [ b 1 b 2 b 3 ] \boldsymbol{W}=\left[\begin{array}{lll} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \\ w_{41} & w_{42} & w_{43} \end{array}\right], \quad \boldsymbol{b}=\left[\begin{array}{lll} b_{1} & b_{2} & b_{3} \end{array}\right] W=⎣ ⎡w11w21w31w41w12w22w32w42w13w23w33w43⎦ ⎤,b=[b1b2b3]
特征为: x ( i ) = [ x 1 ( i ) x 2 ( i ) x 3 ( i ) x 4 ( i ) ] \boldsymbol{x}^{(i)}=\left[\begin{array}{llll} x_{1}^{(i)} & x_{2}^{(i)} & x_{3}^{(i)} & x_{4}^{(i)} \end{array}\right] x(i)=[x1(i)x2(i)x3(i)x4(i)]
损失函数
通俗的理解:神经网络的标准和你心中的标准相差的定量的表达。
最小二乘法
L ( y ^ ⋅ y ) = 1 2 ( y ^ − y ) 2 \mathcal{L}(\hat{y} \cdot y)=\frac{1}{2}(\hat{y}-y)^{2} L(y^⋅y)=21(y^−y)2其中 y ^ \hat{y} y^表示神经网络(nn)预测的输出,y表示真实的标签。
极大似然估计
通俗理解:计算nn里面概率模型的最大似然值。
ps:懒得打了,直接上图片吧,哈哈哈