机器学习笔记

《机器学习上课笔记2022秋–第一课》

1 引言

1.1 什么是机器学习

  • improve their performance P
  • at some task T
  • with experience E

1.2 学习类别

I 监督学习
  • 分类
  • 回归
II 无监督学习
  • 聚类
  • 密度估计: to determine the distribution of data within the input space
  • 可视化: to project the data from a high-dimensional space down to two or three dimensions
III 强化学习
  • 不需要给出最优结果
  • 通过反复实验得出结果

1.3 多项式曲线拟合

  • 自变量x与目标t

在这里插入图片描述

  • 目标函数
    在这里插入图片描述

  • 误差函数

在这里插入图片描述

  • 目标函数(模型)不同,效果也不一样
    在这里插入图片描述

  • 过拟合

定义:

训练集上的误差小,测试集上的误差很大

在这里插入图片描述

欠拟合:未训练好

  • 模型选择

RMS(root mean square)均方根误差:

在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w1NG01Jc-1663312826299)(C:\Users\dyy\AppData\Roaming\Typora\typora-user-images\image-20220916105508247.png)]

这里可以选择M=3

  • M越大,系数越多

在这里插入图片描述

  • 正则化

在这里插入图片描述

增加一个惩罚项限制w

在这里插入图片描述

当惩罚项变大,权值绝对值变小,模型简化

  • 验证集

用于优化模型复杂度(M 或者惩罚因子)

训练集用于决定参数

1.4 概率论

I.贝叶斯定理

公式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LvGGn34Q-1663312826302)(C:\Users\dyy\AppData\Roaming\Typora\typora-user-images\image-20220916111559830.png)]

贝叶斯定理中的分母可以用分子中出现的量来表示

在这里插入图片描述

先验概率:在我们观察到另一个事件之前,一个事件发生的概率

后验概率:在我们观察到另一个事件后得到的一个事件的概率

example(好好推一下)知道选择橘子,求蓝色框的概率

在这里插入图片描述

II. 频率与概率的贝叶斯解释

频率视图:随机、可重复事件的频率

贝叶斯观点:对不确定性的量化

回归任务:

在这里插入图片描述

极大似然:一种广泛使用的频率估计量,其中w设为使似然函数P (D|w)最大化的值。

误差函数:似然函数的负对数

由于负对数是一个单调递减函数,使似然值最大化等价于使误差最小化

III 高斯分布

在这里插入图片描述

在这里插入图片描述

1.参数估计
  • 给定数据集X
  • 均值和方差未知
  • 根据数据集确定这些参数
  • 数据集的概率(给定µ和σ2)写成这样的形式

在这里插入图片描述

  • 对数似然
    在这里插入图片描述

  • 最大似然函数的解为

在这里插入图片描述

2.局限性
  • 总体期望不变
  • 总体方差相对于总体期望是有偏的(证明略)

在这里插入图片描述

  • 解决办法(使得样本估计为无偏)

在这里插入图片描述

1.5 分类决策问题

通用学习问题:给定输入x的新值,预测目标t

1.5.1 缩小错误分类率
  • 将输入空间划分为决策区域

  • 决策边界:决策区域的边界
    在这里插入图片描述

  • 决策规则:x的每一个值都分配给后验概率P (Ck|x)较大的类

1.5.2 减小损失
  • 损失矩阵

在这里插入图片描述

  • 代价函数(减少损失)
    在这里插入图片描述

  • 决策规则:将样本分给类使得下面公式最小化

在这里插入图片描述

1.5.3 几种方法解决分类问题
  1. 生成模型
    • 为每个类Ck单独确定类条件密度p(x|Ck)
    • 推断先验类概率p(Ck)
    • 使用贝叶斯定理评估后验类概率p(Ck|x)
    • 使用决策理论来确定每个新输入x的类成员
  2. 辨别模型(直接确定属于哪一类)
  3. 判别函数(找到一个函数映射关系到类上)

1.6 回归损失函数

  • 平均损失函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 三种方法解决回归决策问题

    • 首先解决确定关节密度p(x, t)的推理问题,然后归一化得到条件密度p(t|x),最后边际化得到条件均值
      在这里插入图片描述

    • 首先解决确定条件密度p(t|x)的推理问题,然后进行边缘化求条件均值
      )]

  • 三种方法解决回归决策问题

    • 首先解决确定关节密度p(x, t)的推理问题,然后归一化得到条件密度p(t|x),最后边际化得到条件均值

    • 首先解决确定条件密度p(t|x)的推理问题,然后进行边缘化求条件均值

    • 直接从训练数据中找到回归函数y(x)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值