《机器学习》学习笔记(三)-- classification

  1. 概念描述
  2. 如何去分类?
  3. Generative model
  4. Gaussian Distribution
  5. 开始分类
  6. 分类的3个步骤
  7. Probability Distribution

1.概念描述
分类问题是找一个function,input一个object,输出的则是判断该object属于哪一个class

就以宝可梦为例,宝可梦有18种属性,现需要解决的分类问题就是做一个宝可梦种类的分类器

在这里插入图片描述
输入数值化
对于宝可梦分类问题,首先就要将一只宠物当作function的input–也就是数值化

比如可以用一组数字来描述它的特性,比如:

  • 有多强(total strong)
  • 生命值(hp)
  • 攻击力(Attack)
  • 防御力(defense)
  • 特殊攻击力(Special Attack)
  • 特殊攻击的防御力(Special defend)
  • 速度(speed)

在这里插入图片描述

2.如何做分类?
Training data for Classification
···可以将编号400以下的宝可梦当作是training data,编号400以上的就做testing data,因为宝可梦的个数会不断更新,所以这样做可以去模拟已经发现已有的宝可梦情况下,如果看到新的宝可梦,能不能够预测其是那种属性?

可以将分类问题当作是回归问题吗?
以二值化分类为例,在Training时让输入为class1的输入为1,输入为class2的输出为-1;那么在testing的时候,regression的output是一个数值,它接近1则说明它是class1,接近-1则说明其是class2

这样做会遇到什么样的问题?
假设model是y=b+w1x1+w2x2,input是两个feature,x1,x2
在这里插入图片描述

有两个class,蓝色的是class1,红色的是class2,如果用Regression的做法,那么就希望蓝色的这些属于class 1的宝可梦,input到Regression的model,output越接近1越好,红色的属于class2的宝可梦,input到Regression的model,output越接近-1越好

假设真的找到了这个function,就像上图所示,绿色的线表示b+w1x1+w2x2=0 ,也就是class1 和 class2的分界线,在这种情况下,值接近-1的宝可梦都集中在绿线的左上方,接近1的宝可梦都集中在绿线的右下方。

但是上述现象只会出现在样本点比较集中的分布在output为-1和1的情况,如果如下上图有厕所是,我们已经知道绿线为最好的哪个model的分界线,它的左上角的值小于0,右下角的值大于0,越往右下方值越大,所以如果要考虑右下角的点,用路线对应的model,他们做regression时候的output会远大于1。这就与一开始做regression的时候,实际上已经给所有的点打上了-1或1的标签,会希望紫色点在model中的output都越接近1越好,所以这些output远大于1的点,他对于绿线对应的model来说时error,是不好的。所以如果用上图这样的样本点通过regression训练出来的model,会时紫色

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值