机器学习与深度学习系列连载：第一部分机器学习（三）监督学习：分类和逻辑回归（Classification and logistic regression）

最新推荐文章于 2023-04-04 13:56:56 发布

人工智能插班生

最新推荐文章于 2023-04-04 13:56:56 发布

阅读量2.2k

点赞数 3

分类专栏：机器学习机器学习

本文链接：https://blog.csdn.net/dukuku5038/article/details/82585523

版权

机器学习同时被 2 个专栏收录

22 篇文章 11 订阅

订阅专栏

机器学习

19 篇文章 95 订阅

订阅专栏

分类和逻辑回归（Classification and logistic regression）

我们接着线性回归的问题，在实际问题中，我们不仅需要得出具体的预测数值，我们还需要将数据进行分类。例如，垃圾邮件识别程序，需要将邮件识别为正常邮件（标记为+1），垃圾邮件（标记为 0）。这是一个典型的分类问题。

1. 逻辑回归（ logistic）

逻辑虽然叫回归，实际是分类。

我们拿垃圾邮件二分类（c1（正常）,c2（垃圾））举例，需要找到一个概率 $p (c 1 ∣ x)$ ，当 $p (c 1 ∣ x) > 0.5$ 时候是分类c1，当 $p (c 1 ∣ x) < 0.5$ 的时候的分类是c2。
这个时候我们就找到一个回归分类函数。

（1）回归函数

$z = w * x + b$ 当 $\sigma (z)$ 输出大于0.5时候为C1，小于0.5的时候为c2
这里写图片描述

我们又开始机器学习三板斧了：

第一步：定义一个函数集合

这里写图片描述

第二步：判断一个函数的好坏

我们的数据集是（x,C）（输入x，x的分类C（正常邮件，垃圾邮件））
这里写图片描述
接下来我们定义逻辑回归好坏的判定公式：给一组我w，b，我们针对每一组数据的概率，他们的乘积就是同时发生的概率（概率论）

我们找到的w,b 就是

通过推导，公式取对数，前面再加符号，等价于把乘法变成加法，求最大值，也变成了求最小值。(交叉熵crossentropy的概念也就推导出来）
这里写图片描述
熵的概念本来是热力学的一个概念，描述物质的混乱程度。在这里，我们用交叉熵的概念来描述两组不同概率数据分布的相似程度，越小越相似。（这个概念在机器学习中非常重要）