逻辑斯蒂回归法多元分类

最新推荐文章于 2024-01-05 21:42:34 发布

蓬某某

最新推荐文章于 2024-01-05 21:42:34 发布

阅读量1.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wang_yunpeng/article/details/103401016

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

返回目录

输出为包含多个值的离散序列。
$y\in \{ s_1, s_2, ..., s_K \}$
其中：K为输出样本不同值的个数。

1.转化为多个二元分类。

将预测值 $y$ 进行以下映射，可划分为 $K$ 组：
$z_k= \begin{cases} 1& (y = s_k) \\ 0& (y \ne s_k)\\ \end{cases}$
其中： $k = 1, 2, . . ., K$ 。
转化为测试输入： $\vec{x}$ ，测试输出： ${z}_k$ 。
利用二元分类可得到 $\vec{\theta}^{(k)}$ 。
代入 $h(\vec{x})$ ，有：
$h_{(k)}(\vec{x_t})=\frac{1}{1+e^{- {\vec{\theta}^{(k)}}^T \vec{x}_t}}$
其中： $\vec{x_t}$ 表示单个测试数据的输入向量。
这样可以得到 $K$ 个假设，选择 $h_{(k)}(\vec{x_t})$ 最大的假设，则输入测试向量 $\vec{x_t}$ 的预测输出为 $s_k$ 。

2.多元假设函数

假设函数：
$h(\vec{x}) =\frac{1}{ 1+\sum_{k=1}^{k=K-1} e^{ -{\vec{\theta}^{(k)}}^T\vec{x}}}$
其中：
$\begin{aligned} \vec{x}=[x_0, x_1, ...,x_n]^T\in\mathbb R^{(n+1)\times1} \\ \vec{\theta}^{(k)}=[\theta_0^{(k)}, \theta_1^{(k)}, ...,\theta_n^{(k)}]^T\in\mathbb R^{(n+1)\times1} \\ （n为特征个数） \end{aligned}$
当测试输入 $\vec x$ 时，得到正确预测值的概率为：
$p=\{h(\vec x)^{P(y=s_1)}(1-h(\vec x))^{P(y\ne s_1)}\}\cdot \{h(\vec x)^{P(y=s_2)}(1-h(\vec x))^{P(y\ne s_2)}\}\cdot ...\{h(\vec x)^{P(y=s_K)}(1-h(\vec x))^{P(y\ne s_K)}\}$
所以有：
$p=\prod_{k=1}^{k=K}(h(\vec x)^{P(y=s_k)}(1-h(\vec x))^{P(y\ne s_k)})$
故似然函数：
$l(\vec{\theta})=\prod_{i=1}^{i=m}\prod_{k=1}^{k=K}(h(\vec x^{(i)})^{P(y^{(i)}=s_k)}(1-h(\vec x^{(i)}))^{P(y^{(i)}\ne s_k)})$
两边取对数有：
$L(\vec{\theta}) =ln(l(\vec{\theta}))=\sum_{i=1}^{i=m}\sum_{k=1}^{k=K}(P(y^{(i)}=s_k)ln(h(\vec x^{(i)}))+(1-P(y^{(i)}=s_k))(1-ln(h(\vec x^{(i)})))$
故代价函数：
$\vec{\theta}) = -\sum_{i=1}^{i=m}\sum_{k=1}^{k=K}(P_{y^{(i)}=s_k}ln(h(\vec x^{(i)}))+(1-P_{y^{(i)}=s_k})ln(1-h(\vec x^{(i)})))$
其中：
$\begin{aligned} &\vec{y}=[y^{(1)}, y^{(2)}, ...,y^{(m)}]^T\\ &y^{(i)}\in \{ s_1, s_2, ..., s_K \} \\ &（m为测试样本个数） \end{aligned}$
梯度下降更新：
$\theta_j^{(t)}:=\theta_j^{(t)}-\alpha \frac{\partial J( \vec{\theta})}{\partial \theta_j^{(t)}}$
其中： $t = 1, 2, . . ., K - 1$ 。
$\begin{aligned} \frac{\partial J( \vec{\theta})}{\partial \theta_j^{(t)}} &= -\sum_{i=1}^{i=m}\sum_{k=1}^{k=K}(P_{y^{(i)}=s_k}ln(h(\vec x^{(i)}))+(1-P_{y^{(i)}=s_k})ln(1-h(\vec x^{(i)})))\\ &=\sum_{i=1}^{i=m}\sum_{k=1}^{k=K}(h(\vec x^{(i)})-P_{y^{(i)}=s_k})x_j(\frac{e^{ -{\vec{\theta}^{(t)}}^T\vec{x}}}{\sum_{u=1}^{u=K-1} e^{ -{\vec{\theta}^{(u)}}^T\vec{x}}}) \end{aligned}$

返回目录