李宏毅__ML_Notes_5.10

最新推荐文章于 2024-07-22 09:16:52 发布

ParkHM17

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量210

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42144885/article/details/106025653

版权

这个目录不重要

Classification

Classification

笔记对应的课程链接

概念

分类就是输入一个object，输出这个object属于哪一个class

还是以神奇宝贝为例，输入一个object（皮卡丘、杰尼龟或者妙蛙种子），输出它们是哪一种属性。

输入数值化

要把一个东西当作object，必须把它数值化，也就是特征数值化

以皮卡丘为例
在这里插入图片描述

回归模型 vs 概率模型

我们需要收集一些数据，例如：皮卡丘 $(x^1,\hat{y}^1)$ 为雷属性，杰尼龟 $(x^2,\hat{y}^2)$ 为水属性，妙蛙种子 $(x^3,\hat{y}^3)$ 为草属性
在这里插入图片描述

回归模型

可以把分类当作回归硬解。举一个二分类的例子，假设输入神奇宝贝的特征 $x$ ，判断属于类别1或者类别2，把这个当作回归问题。

类别1：相当于target是1
类别2：相当于target是-1

然后训练模型：因为是个数值，如果数值比较接近1，就当作类别1，如果数值接近-1，就当做类别2。这样做会遇到什么问题？
在这里插入图片描述
左图：绿色是分界线，红色就是class2，蓝色就是class1
右图：紫色是分界线，红色依旧是class2，蓝色依旧是class1
训练集如果添加很多error的数据，分界线就会从绿色偏移到紫色

这样用回归的方式硬训练可能会得到紫色的这条。直观上就是将绿色的线偏移一点到紫色的时候，就能让右下角的那部分的值不是那么大了。但实际是绿色的才是比较好的，用回归硬训练并不会得到好结果。此时可以得出用回归的方式定义，对于分类问题来说是不适用的。

还有另外一个问题：比如多分类，类别1当作target1，类别2当作target2，类别3当作target3…如果这样做的话，就会认为类别2和类别3是比较接近的，认为它们是有某种关系的；认为类别1和类别2也是有某种关系的，比较接近的。但是实际上这种关系不存在，它们之间并不存在某种特殊的关系。这样是没有办法得到好的结果。