学习笔记——机器学习--多项式分布及Softmax回归模型推导

最新推荐文章于 2024-03-06 02:25:04 发布

liuyhoo

最新推荐文章于 2024-03-06 02:25:04 发布

阅读量2.5k

点赞数 6

分类专栏：机器学习

本文链接：https://blog.csdn.net/liuyhoo/article/details/81542100

版权

本文探讨了在多分类问题中，如何使用Softmax回归模型进行预测。通过证明多项式分布属于指数分布族，可以利用广义线性模型来拟合，并推导出Softmax函数。内容涉及多项分布、Softmax函数的定义及其在广义线性模型中的应用。

摘要由CSDN通过智能技术生成

在一个多分类问题，预测变量 $y$ 可以取 $k$ 个离散值中的任何一个，即 $y\in \{1,2,\cdots ,k\}$ 。

例如：在一个邮件分类系统将邮件分为私人邮件，工作邮件和垃圾邮件。由于 $y$ 仍然是一个离散值，这种多分类问题，二分类模型在这里不太适用。

多分类问题符合多项分布。有许多算法可用于解决多分类问题，像决策树、朴素贝叶斯等。本文主要讲解多分类算法中的Softmax回归（Softmax Regression)

推导思路为：首先证明多项分布属于指数分布族，这样就可以使用广义线性模型来拟合这个多项分布，由广义线性模型推导出的目标函数 ${{h}_{\theta }}(x)$ 即为Softmax回归的分类模型。

多项式分布属于指数分布族的推导

下面将根据多项式分布建模。考虑样本共有 $k$ 类，每一类的概率分别为 ${{\phi }_{1}},\cdots ,{{\phi }_{k}}$ ，由于 $\sum\limits_{i=1}^{k}{{{\phi }_{i}}}=1$ ，所以通常我们只需要 $k-1$ 个参数即 ${{\phi }_{1}},\cdots ,{{\phi }_{k-1}}$ 。
$\begin{align} & P(y=i;\phi )={{\phi }_{i}} \ & P(y=k;\phi )=1-\sum\limits_{i=1}^{k-1}{{{\phi }_{i}}} \ \end{align}$
为了推导方便，引入表达式：
$T(1)=\left[ \begin{matrix} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \\ \end{matrix} \right],\ T(2)=\left[ \begin{matrix} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \\ \end{matrix} \right],\ \cdots ,\ T(k-1)=\left[ \begin{matrix} 0 \\ 0 \\ 0 \\ \vdots \\ 1 \\ \end{matrix} \right],\ \ T(k)=\left[ \begin{matrix} 0 \\ 0 \\ 0 \\ \vdots \\ 0 \\ \end{matrix} \right]$