第四周学习笔记

最新推荐文章于 2021-05-25 22:35:51 发布

luputo

最新推荐文章于 2021-05-25 22:35:51 发布

阅读量161

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/luo3300612/article/details/82146153

版权

学习笔记专栏收录该内容

61 篇文章 3 订阅

订阅专栏

第四周学习笔记

###1.CS229
课程地址

第九讲，经验风险最小化

主要内容

方差-偏差权衡（variance-bias trade），欠拟合与过拟合（underfitting and overfitting）
经验风险最小化（Empirical risk minimization），选择训练集上误差最小的算法
样本复杂度界（the sample complexity bounds），为了达到某个特定错误界需要多少样本

值得注意的地方

1.iid

独立同分布（Identically and definitively distributed）
######2.关于方差和偏差的严格定义
西瓜书中，对于回归模型的方差偏差定义为
$var(x)=E_D[(f(x;D)-\overline{f}(x))]$
$bias^2(x)=(\overline{f}(x)-y)^2$
其中， $D$ 是训练集
$\overline{f}(x)=E[f(x;D)]$

分类问题中，目前（2015）仍然没有统一的方差偏差的定义

第十讲特征选择

#####主要内容

VC维
模型选择
交叉验证
简单保留交叉验证（simple hold out cross validation）70%-30%，
k折交叉验证（k fold cv）k=5，k=10，
留一法（Leave one out）k=m
特征选择
Forward Search
Backward Search
Filter feature selection（使用相关系数或互信息选择）

值得注意的地方

######1.最小化经验误差的合理性
我们训练的目的是为了得到一个泛化误差小的模型。
经验误差最终一致收敛到泛化误差。
对于所有试图最小化经验误差的算法，所需的训练样本大约与假设所需的参数呈线性关系（好的参数化）
######2.验证集误差
模型在验证集上的误差是对泛化误差更好的逼近

第十一讲贝叶斯统计与正则化

主要内容

贝叶斯Logistic回归，使用高斯分布作为先验分布，最终效果等价于在损失函数后增加一个正则化项，能够使得结果更加平滑，防止过拟合。
在线学习（Online learning）
如何使机器学习算法应用得很好
如何开始解决问题

#####值得注意的地方
######1.如何使机器学习算法应用更好
①偏差与方差诊断
High Variance：训练误差远小于测试误差
High Bias：两个误差都很大
②模型问题还是算法收敛问题？
比较两个模型的加权准确率 $\alpha$ 和 $J(\theta)$ （当前目标是最大化）
case1:
$\alpha_{svm}>\alpha_{BLR}$
$J(\theta_{svm})>J(\theta_{BLR})$
说明BLR优化没有搜索到最佳的收敛点，属于优化问题

case2:
$\alpha_{svm}>\alpha_{BLR}$
$J(\theta_{svm})<J(\theta_{BLR})$
说明BLR没有优化问题，但是满足损失函数最小却不一定使得 $J$ 更大，属于模型问题

③即使学习算法的效果很好，也需要进行诊断，这是为了

帮助更好地理解问题
得到更好的直觉关于一些有一点没用的东西
通过诊断，了解算法的哪些特点解决了哪些问题

对于流水线组合而成的模型，可以将每个阶段更换成Ground Truth来诊断哪个阶段对最终误差的影响最大。
销蚀分析（Ablative analysis）
每次消除某个步骤看看对最终性能的影响。

######2.如何开始一个机器学习项目
Careful design
Build and fix
######3.一些经验
三分之一的时间用于诊断
做应用时，不必研究与应用相关不大的理论

第十二讲 K-means算法

#####主要内容

无监督学习（Unsupervised Learning）
K-均值算法（K-means algorithm）
密度估计（Density Estimation），异常检测（Anomaly Detection）
最大期望算法（EM Algorithm）

值得注意的地方

######1.K-means的优化
K-means的失真函数
$J(c,\mu)=\Sigma^{m}_{i=1}\left \| x^{(i)}-\mu_{c^{(i)}} \right \|^2$
一定程度上衡量了分类的效果好坏，K-means运行过程中基本是在最小化这个函数，通过交替地对每个样本的 $c^{(i)}$ 与类中心 $\mu$ 的优化，相当于使用坐标上升进行优化。
######2.EM算法和GDA的比较
GDA已知标签，EM算法未知标签，GDA假设标签服从伯努利分布，EM算法假设服从多项分布，GDA假设协方差矩阵相同，EM算法假设不同。EM算法将GDA算法中对标签的指示函数改成了对标签的估计。

luputo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第四周学习笔记

第四周学习笔记1.CS229课程地址第九讲，经验风险最小化主要内容方差-偏差权衡（variance-bias trade），欠拟合与过拟合（underfitting and overfitting）样本复杂度界（the sample complexity bounds），为了达到某个特定错误界需要多少样本值得注意的地方iid（Identically and def...
复制链接

扫一扫