机器学习---分类问题（二分类和多分类）、逻辑回归

最新推荐文章于 2023-01-10 13:37:38 发布

120斤

最新推荐文章于 2023-01-10 13:37:38 发布

阅读量1.7k

点赞数

分类专栏：机器学习文章标签：机器学习逻辑回归

本文链接：https://blog.csdn.net/qq_41503174/article/details/104866198

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

给出假设函数：

$h_\theta(x)=g(\theta^T\cdot X) \tag{1}$
$g(z)=\frac{1}{1+e^{(-z)}}\tag{2}$

$y$ 更可能等于 $1$ 或者说 $y = 1$ 的概率大于等于 $0.5$ 的条件是 $z=\theta^TX$ 大于零。

将 $(1)$ 和 $(2)$ 进行合并：
$h_\theta(x)=\frac{1}{1+e^{(-\theta^T\cdot X)}} \tag{3}$

$(3)$ 式就是我们的假设函数。

定义了代价函数如下：
$J(\theta)=\frac{1}{m}\cdot \sum^m_{i=1}Cost(h_\theta(x),y)$
$Cost(h_\theta(x),y) = \begin{cases}-log(h_\theta(x)) & if:y=1 \\-log(1-h_\theta(x)) &if:y=0 \end{cases}$

我们更推荐用一个式子来表示 $Cost(h_\theta(x),y)$

$Cost(h_\theta(x),y) = -ylog(h_\theta(x))-(1-y)log(1-h_\theta(x)) \tag{5}$

将 $(3)$ 和 $(5)$ 得到终结版的代价函数：
$J(\theta)=-\frac{1}{m}\cdot \sum^m_{i=1}\left(y^{(i)}log[h_\theta(x^{(i)})]+(1-y^{(i)})log[1-h_\theta(x^{(i)})]\right)$
这个代价函数是统计学中得出来的，重要的是他是一个凸函数能够找到最小化。我们一般选择这个函数。
还要记住一点 $y$ 等于 $1$ 或 $0$ 这是由他的定义决定的，不论是已知的数据集还是我们要预测的。
我现在只能照着以前线性回归的思路来找参数 $\theta$ ,要找到参数 $\theta$ 就要对 $J(\theta)$ 最小化，仍然考虑使用梯度下降法来最小化代价函数 $J(\theta)$ ：
Repeat:
$\theta_j=\theta_j-\alpha\cdot\frac{\partial}{\partial \theta_j} \tag{6}J(\theta)\\j=1,1,2,3\dots$
仍然是同时更新。

将式子 $(6)$ 的偏导展开：
$\theta_j=\theta_j-\alpha\cdot\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$
$j=0,1,2,3\dots$ ，同时更新，内循环对 $\theta_j$ 进行 $j=0,1,2,3\dots n$ 的更新，外循环的循环次数不定，直到收敛。
其中： $h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}$

下面我们来考虑多分类问题（一对多问题）：
比如说邮件分类一共有三类，分别是y=1,y=2,y=3。我觉得很好理解之前二分类我们定义y=0或者y=1。
三分类或者多分类就是多个二分类器，三分类就是三个二分类器，比如 $h^1_\theta(x)、h^2_\theta(x)、h^3_\theta(x)$ 。
拿第一个二分类器为例，就是给定 $x$ 和 $\theta$ ，输出 $y = 1$ 的概率，那第二个而分类器就是给定 $x$ 和 $\theta$ ，输出 $y = 2$ 的概率，以及第三个二分类器，给定 $x$ 和 $\theta$ ，输出 $y = 3$ 的概率。在预测某个具体问题时，我们就向这三个分类器都输入 $x$ 和 $\theta$ ，然后取 $h^i$ 最高的那个，因为输出的概率所以就可以确定 $y$ 的值了。
比如说 $h^1_\theta(x)$ 的概率最高那么就可以确定 $y = 1$ 。

120斤

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习---分类问题（二分类和多分类）、逻辑回归

给出假设函数：hθ(x)=g(θT⋅X)(1)h_\theta(x)=g(\theta^T\cdot X) \tag{1}hθ(x)=g(θT⋅X)(1)g(z)=11+e(−z)(2)g(z)=\frac{1}{1+e^{(-z)}}\tag{2}g(z)=1+e(−z)1(2)yyy更可能等于111或者说y=1y=1y=1的概率大于等于0.50.50.5的条件是z=θTXz=\the...
复制链接

扫一扫