《机器学习》学习笔记（三）-- classification

最新推荐文章于 2023-10-12 15:07:55 发布

DIAJEY

最新推荐文章于 2023-10-12 15:07:55 发布

阅读量966

点赞数 3

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/DIAJEY/article/details/107582967

版权

概念描述
如何去分类？
Generative model
Gaussian Distribution
开始分类
分类的3个步骤
Probability Distribution

1.概念描述
分类问题是找一个function，input一个object，输出的则是判断该object属于哪一个class

就以宝可梦为例，宝可梦有18种属性，现需要解决的分类问题就是做一个宝可梦种类的分类器

在这里插入图片描述
输入数值化
对于宝可梦分类问题，首先就要将一只宠物当作function的input–也就是数值化

比如可以用一组数字来描述它的特性，比如：

有多强（total strong）
生命值（hp）
攻击力（Attack）
防御力（defense）
特殊攻击力（Special Attack）
特殊攻击的防御力（Special defend）
速度（speed）

在这里插入图片描述

2.如何做分类？
Training data for Classification
···可以将编号400以下的宝可梦当作是training data，编号400以上的就做testing data，因为宝可梦的个数会不断更新，所以这样做可以去模拟已经发现已有的宝可梦情况下，如果看到新的宝可梦，能不能够预测其是那种属性？

可以将分类问题当作是回归问题吗？
以二值化分类为例，在Training时让输入为class1的输入为1，输入为class2的输出为-1；那么在testing的时候，regression的output是一个数值，它接近1则说明它是class1，接近-1则说明其是class2

这样做会遇到什么样的问题？
假设model是y=b+w1x1+w2x2,input是两个feature，x1,x2
在这里插入图片描述

有两个class，蓝色的是class1，红色的是class2，如果用Regression的做法，那么就希望蓝色的这些属于class 1的宝可梦，input到Regression的model，output越接近1越好，红色的属于class2的宝可梦，input到Regression的model，output越接近-1越好

假设真的找到了这个function，就像上图所示，绿色的线表示b+w1x1+w2x2=0 ,也就是class1 和 class2的分界线，在这种情况下，值接近-1的宝可梦都集中在绿线的左上方，接近1的宝可梦都集中在绿线的右下方。

但是上述现象只会出现在样本点比较集中的分布在output为-1和1的情况，如果如下上图有厕所是，我们已经知道绿线为最好的哪个model的分界线，它的左上角的值小于0，右下角的值大于0，越往右下方值越大，所以如果要考虑右下角的点，用路线对应的model，他们做regression时候的output会远大于1。这就与一开始做regression的时候，实际上已经给所有的点打上了-1或1的标签，会希望紫色点在model中的output都越接近1越好，所以这些output远大于1的点，他对于绿线对应的model来说时error，是不好的。所以如果用上图这样的样本点通过regression训练出来的model，会时紫色

最低0.47元/天解锁文章

DIAJEY

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
《机器学习》学习笔记（三）-- classification

概念描述如何去分类？1.概念描述分类问题是找一个function，input一个object，输出的则是判断该object属于哪一个class就以宝可梦为例，宝可梦有18种属性，现需要解决的分类问题就是做一个宝可梦种类的分类器输入数值化对于宝可梦分类问题，首先就要将一只宠物当作function的input–也就是数值化比如可以用一组数字来描述它的特性，比如：有多强（total strong）生命值（hp）攻击力（Attack）防御力（defense）特殊攻击力（Specia.
复制链接

扫一扫

专栏目录