《机器学习上课笔记2022秋–第一课》
1 引言
1.1 什么是机器学习
- improve their performance P
- at some task T
- with experience E
1.2 学习类别
I 监督学习
- 分类
- 回归
II 无监督学习
- 聚类
- 密度估计: to determine the distribution of data within the input space
- 可视化: to project the data from a high-dimensional space down to two or three dimensions
III 强化学习
- 不需要给出最优结果
- 通过反复实验得出结果
1.3 多项式曲线拟合
- 自变量x与目标t
-
目标函数
-
误差函数
-
目标函数(模型)不同,效果也不一样
-
过拟合
定义:
训练集上的误差小,测试集上的误差很大
欠拟合:未训练好
- 模型选择
RMS(root mean square)均方根误差:
这里可以选择M=3
- M越大,系数越多
- 正则化
增加一个惩罚项限制w
当惩罚项变大,权值绝对值变小,模型简化
- 验证集
用于优化模型复杂度(M 或者惩罚因子)
训练集用于决定参数
1.4 概率论
I.贝叶斯定理
公式
贝叶斯定理中的分母可以用分子中出现的量来表示
先验概率:在我们观察到另一个事件之前,一个事件发生的概率
后验概率:在我们观察到另一个事件后得到的一个事件的概率
example(好好推一下)知道选择橘子,求蓝色框的概率
II. 频率与概率的贝叶斯解释
频率视图:随机、可重复事件的频率
贝叶斯观点:对不确定性的量化
回归任务:
极大似然:一种广泛使用的频率估计量,其中w设为使似然函数P (D|w)最大化的值。
误差函数:似然函数的负对数
由于负对数是一个单调递减函数,使似然值最大化等价于使误差最小化
III 高斯分布
1.参数估计
- 给定数据集X
- 均值和方差未知
- 根据数据集确定这些参数
- 数据集的概率(给定µ和σ2)写成这样的形式
-
对数似然
-
最大似然函数的解为
2.局限性
- 总体期望不变
- 总体方差相对于总体期望是有偏的(证明略)
- 解决办法(使得样本估计为无偏)
1.5 分类决策问题
通用学习问题:给定输入x的新值,预测目标t
1.5.1 缩小错误分类率
-
将输入空间划分为决策区域
-
决策边界:决策区域的边界
-
决策规则:x的每一个值都分配给后验概率P (Ck|x)较大的类
1.5.2 减小损失
- 损失矩阵
-
代价函数(减少损失)
-
决策规则:将样本分给类使得下面公式最小化
1.5.3 几种方法解决分类问题
- 生成模型
- 为每个类Ck单独确定类条件密度p(x|Ck)
- 推断先验类概率p(Ck)
- 使用贝叶斯定理评估后验类概率p(Ck|x)
- 使用决策理论来确定每个新输入x的类成员
- 辨别模型(直接确定属于哪一类)
- 判别函数(找到一个函数映射关系到类上)
1.6 回归损失函数
- 平均损失函数
-
三种方法解决回归决策问题
-
首先解决确定关节密度p(x, t)的推理问题,然后归一化得到条件密度p(t|x),最后边际化得到条件均值
-
首先解决确定条件密度p(t|x)的推理问题,然后进行边缘化求条件均值
)]
-
-
三种方法解决回归决策问题
-
首先解决确定关节密度p(x, t)的推理问题,然后归一化得到条件密度p(t|x),最后边际化得到条件均值
-
首先解决确定条件密度p(t|x)的推理问题,然后进行边缘化求条件均值
-
直接从训练数据中找到回归函数y(x)
-