机器学习分类与逻辑回归——（hungyi lee）_机器学习逻辑回归和分类-CSDN博客

本文链接：https://blog.csdn.net/ji_meng/article/details/123601555

文章目录

从概率的观点看分类
- 关于概率分布的选择
- 分析一下后验概率
逻辑回归

从概率的观点看分类

首先由一个抽球问题引入：选择盒子1的概率是 $\frac{2}{3}$ ,选择盒子1的概率 $\frac{1}{3}$ ，从盒子1中取蓝球的概率是 $\frac{4}{5}$ ，取绿球的概率是 $\frac{1}{5}$ ，从盒子2中取蓝球的概率是 $\frac{2}{5}$ ，取绿球的概率是 $\frac{3}{5}$ （典型的条件概率情景）
在这里插入图片描述
此时，如果取到一个球是蓝球，那么它是从盒子1取出的概率是： $P(B_1|Blue)=\frac{P(Blue|B_1)*P(B_1)}{P(Blue|B_1)*P(B_1)+P(Blue|B_2)*P(B_2)}$ 贝叶斯公式：先验概率，后验概率，条件概率

那么二分类问题也可这样描述： $P(C_1)$ 类别1的概率， $P(C_2)$ 类别2的概率。
在这里插入图片描述
给定一个x，则它属于 $C_1$ 类的概率是
$P(C_1|x)=\frac{P(x|C_1)*P(C_1)}{P(x|C_1)*P(C_1)+P(x|C_2)*P(C_2)}$
先验概率 $P(C_1)$ ， $P(C_2)$ 一般比较好计算，主要计算条件概率 $P(x|C_1)$ ，即从 $C_1$ 类中sample x的概率。
假设这些x服从高斯分布：则输入是向量x，输出是x的概率
在这里插入图片描述
接下来需要找到训练集的均值和方差矩阵，用到的方法是最大似然估计(maximum likelihood estimation),已知总体分布，但其中的参数不知道，所以通过样本来估计参数

此时可以计算出 $P(x|C_1)$ ，以及 $P(C_1|x)$ 。如果 $P(C_1|x)>0.5$ ,则x属于类别1
在这里插入图片描述
注意，此处的x只将其当作二维向量，其实是7维向量（7种特征），即 $x^m=(x_1^m,x_2^m,\cdots,x_7^m)$ 表示第m个数据。如果全部考虑进去，那么预测值会更准确。

关于概率分布的选择

除了高斯分布，我们还可以选择Bernoulli distributions(二分类)，Naive Bayes Classifier（假设分布之间是独立的）

分析一下后验概率

在这里插入图片描述

可以看出，x是 $C_1$ 的概率就等于输出层通过一个激活函数的值，此时也得到了w和b。

逻辑回归

$P_{w,b}(C_1|x)=\sigma(w*x+b)$ ， $z=w*x+b=\sum w_i*x_i+b$ , $\sigma(z)=\frac{1}{1+exp(-z)}$
在这里插入图片描述
假设这些数据的产生是基于高斯分布， $f_{w,b}(x)=P_{w,b}(C_1|x)$ 。则产生这些数据的概率是
$L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^1))\cdots$
则 $w^*,b^*=arg \max\limits_{w,b}L(w,b)=arg\min\limits_{w,b}-lnL(w,b)$
令 $C_1$ =1, $C_2$ =0,即 $\hat{y}^1=1$ , $\hat{y}^2=1$ , $\hat{y}^3=0$ ,所以， $\hat{y}^n:$ 1 for class 1,0 for class two。则 $-lnL(w,b)=\sum -[\hat{y}^n lnf_{w,b}(x^n)+(1-\hat{y}^n ln(1-f_{w,b}(x^n))]$
可以把它看成两个伯努利(Bernoulli)分布的交叉熵。
接下来同样利用梯度下降的方法寻找w和b的最优解，对上式求导，有 $\frac{\partial -lnL(w,b)}{\partial w_i}=\sum_n -(\hat{y}^n-f_{w,b}(x^n))x_i^n$