【李宏毅机器学习】Classification_1 分类(p10) 学习笔记

李宏毅机器学习学习笔记汇总
课程链接


Classification

Probabilistic Gernerative Model 分类:概率遗传模型

找一个function,input:x,output:属于的class

  • 信用评估
    input:收入、存款、工作、年纪、过去有无欠款
    output:借钱/不借钱
  • 医疗诊断
    input:症状、年纪、性别、过往病史
    output:何种疾病
  • 手写文字识别
    input:手写文字
    output:是什么字
  • 人脸辨识
    input:一张脸的图像
    output:是哪个人
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

如何完成这个任务?

当仅仅只是将标签映射成一个数字的时候,可以把分类问题当作回归问题,但是其本身压缩了很多信息
在这里插入图片描述

强行把classification当作regression来做会遇到的问题:

使用绿色的线代表model的值为0的话,左上角小于0,右下角大于0,越右下越大,>>1。但是用regression的话,会希望蓝色点越接近1越好(太大太小都不行,所以>>1的点对于regression来说是错的点,是不好的),所以这样的两群蓝色和一群红色的点做regression,得到的不会是绿色的线(虽然人看上去他是一个好的boundary),而是紫色的分界线,因为模型会觉得,将线向右偏移,右下角的蓝色点的值就不会>>1了,会更接近1。对于regression来说,这样的function(紫色)却是比较好的。但是对于classification来说,绿色的却是比较好的

在这里插入图片描述

Ideal Alternative 理想的做法
在这里插入图片描述
在这里插入图片描述
推广到类别,生产模型
在这里插入图片描述
先验概率
在这里插入图片描述
在这里插入图片描述
假设所有点都有相同分布——高斯分布
在这里插入图片描述
在这里插入图片描述
利用局部求出高斯分布的参数,然后应用到未知的的输入,求其概率
在这里插入图片描述
如何找μ和 ∑ \sum (参数估计)——最大似然估计
最大似然估计,从样本估计出最可能的模型参数

虽然每一个高斯分布都有可能sample出这些点,但是sample出这些点的概率不一样

在这里插入图片描述
找一个概率最大的,作为估计的高斯分布
在这里插入图片描述
把正态分布拓展到二维,分别为均值和方差
在这里插入图片描述
现在可以做分类问题了

Q:箭头指向的那个概率密度函数还需要对它积分吗
A:不需要了,老师前面解释了将概率密度当成在这个样本点的概率值
A2:分子分母都在积分的时候乘dx,抵消了

在这里插入图片描述

只用二维没有办法分出来,acc只有47%
宝可梦是七维空间的一个点
在这里插入图片描述
emmm效果依旧和瞎猜一样。。。

Modifying Model 改造模型

如果把不同的高斯分布都给不同的协方差,导致model参数多,使得variance大,容易overfiting过拟合。
所以,不同的class共用一个协方差矩阵,减少参数,避免过拟合

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

直线就是线性判别函数
二分类的LDA跟线性回归来分类的结果是一样的

定义一个function的好坏:
在概率模型中,要评价的其实是高斯里的参数,产生training data的likehood,就是这组参数的好坏

所以要做的就是找一个概率分布,可以最大化地产生这些data的likehood

在这里插入图片描述

Probability Distribution 概率分布

如果假设各个维度相互独立,说明你在使用朴素贝叶斯分类器
在这里插入图片描述

妙啊!

在这里插入图片描述

接下来又是数学部分。。。

在这里插入图片描述
后验概率
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

结论

由于共用 ∑ \sum ,所以可以化简,最后得到z如下式子,可以发现是一个线性模型
在这里插入图片描述

综上,我们把一个posterior Probability后验概率 P ( C 1 ∣ x ) P(C_1|x) P(C1x)写成 σ ( z ) \sigma(z) σ(z),z又可以写成一个线性模型的样子,所以最后就是 P ( C 1 ∣ x ) = σ ( w ∗ x + b ) P(C_1|x) = \sigma(w*x+b) P(C1x)=σ(wx+b)
从这个式子中可以看出,将 ∑ \sum 共用的时候,class 1和 class 2 的boundary是线性的,在生产模型中,我们通过一些方法得到 N 1 N_1 N1, N 2 N_2 N2 μ 1 \mu^1 μ1, μ 2 \mu^2 μ2 , ∑ \sum ,然后计算得到W和b,带入最终式子算出概率。

弹幕

  • 如果不用同一个协方差的话会多出关于x的非线性项
  • 朴素贝叶斯 到 线性分类器
  • 最后z的展开式的协方差矩阵是不是没有1,2之分了,已经假设共用matrix了

那么,假设最终是找一个W和b,那为什么要算这个概率呢,能不能直接得到W和b呢?下节讲

最后这部分推导是真的牛逼!

补充:

Q:为了减小模型参数,将c1和c2的协方差矩阵作为共享参数,从而减小模型空间,从而避免过拟合。为什么要共享协方差矩阵而不是均值向量呢?
A:共享协方差就是让水属性和一般属性的高斯分布形状相同,也就是认为他们的分布算法是一样的,但靶心不一样。均值向量相当于靶心。

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值