机器学习笔记

最新推荐文章于 2024-09-26 16:43:41 发布

小杨小杨1

最新推荐文章于 2024-09-26 16:43:41 发布

阅读量257

点赞数

分类专栏：机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/qq_45745941/article/details/126891263

版权

机器学习课程笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

《机器学习上课笔记2022秋–第一课》

1 引言

1.1 什么是机器学习

improve their performance P
at some task T
with experience E

1.2 学习类别

I 监督学习

分类
回归

II 无监督学习

聚类
密度估计: to determine the distribution of data within the input space
可视化: to project the data from a high-dimensional space down to two or three dimensions

III 强化学习

不需要给出最优结果
通过反复实验得出结果

1.3 多项式曲线拟合

自变量x与目标t

在这里插入图片描述

目标函数
误差函数

在这里插入图片描述

目标函数（模型）不同，效果也不一样
过拟合

定义：

训练集上的误差小，测试集上的误差很大

在这里插入图片描述

欠拟合：未训练好

模型选择

RMS（root mean square）均方根误差：

在这里插入图片描述

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w1NG01Jc-1663312826299)(C:\Users\dyy\AppData\Roaming\Typora\typora-user-images\image-20220916105508247.png)]$

这里可以选择M=3

M越大，系数越多

在这里插入图片描述

正则化

在这里插入图片描述

增加一个惩罚项限制w

在这里插入图片描述

当惩罚项变大，权值绝对值变小，模型简化

验证集

用于优化模型复杂度（M 或者惩罚因子）

训练集用于决定参数

1.4 概率论

I.贝叶斯定理

公式

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LvGGn34Q-1663312826302)(C:\Users\dyy\AppData\Roaming\Typora\typora-user-images\image-20220916111559830.png)]$

贝叶斯定理中的分母可以用分子中出现的量来表示

在这里插入图片描述

先验概率：在我们观察到另一个事件之前，一个事件发生的概率

后验概率:在我们观察到另一个事件后得到的一个事件的概率

example（好好推一下）知道选择橘子，求蓝色框的概率

在这里插入图片描述

II. 频率与概率的贝叶斯解释

频率视图:随机、可重复事件的频率

贝叶斯观点:对不确定性的量化

回归任务：

在这里插入图片描述

极大似然:一种广泛使用的频率估计量，其中w设为使似然函数P (D|w)最大化的值。

误差函数:似然函数的负对数

由于负对数是一个单调递减函数，使似然值最大化等价于使误差最小化

III 高斯分布

在这里插入图片描述

1.参数估计

给定数据集X
均值和方差未知
根据数据集确定这些参数
数据集的概率(给定µ和σ2)写成这样的形式

在这里插入图片描述

对数似然
最大似然函数的解为

在这里插入图片描述

2.局限性

总体期望不变
总体方差相对于总体期望是有偏的（证明略）

在这里插入图片描述

解决办法（使得样本估计为无偏）

在这里插入图片描述

1.5 分类决策问题

通用学习问题:给定输入x的新值，预测目标t

1.5.1 缩小错误分类率

将输入空间划分为决策区域
决策边界：决策区域的边界
决策规则：x的每一个值都分配给后验概率P (Ck|x)较大的类

1.5.2 减小损失

损失矩阵

在这里插入图片描述

代价函数（减少损失）
决策规则：将样本分给类使得下面公式最小化

在这里插入图片描述

1.5.3 几种方法解决分类问题

生成模型
- 为每个类Ck单独确定类条件密度p(x|Ck)
- 推断先验类概率p(Ck)
- 使用贝叶斯定理评估后验类概率p(Ck|x)
- 使用决策理论来确定每个新输入x的类成员
辨别模型（直接确定属于哪一类）
判别函数（找到一个函数映射关系到类上）

1.6 回归损失函数

平均损失函数

在这里插入图片描述

三种方法解决回归决策问题
- 首先解决确定关节密度p(x, t)的推理问题，然后归一化得到条件密度p(t|x)，最后边际化得到条件均值
- 首先解决确定条件密度p(t|x)的推理问题，然后进行边缘化求条件均值
  )]
三种方法解决回归决策问题
- 首先解决确定关节密度p(x, t)的推理问题，然后归一化得到条件密度p(t|x)，最后边际化得到条件均值
- 首先解决确定条件密度p(t|x)的推理问题，然后进行边缘化求条件均值
- 直接从训练数据中找到回归函数y(x）