第四周学习笔记

第四周学习笔记

###1.CS229
课程地址

第九讲,经验风险最小化
主要内容
  • 方差-偏差权衡(variance-bias trade),欠拟合与过拟合(underfitting and overfitting)
  • 经验风险最小化(Empirical risk minimization),选择训练集上误差最小的算法
  • 样本复杂度界(the sample complexity bounds),为了达到某个特定错误界需要多少样本
值得注意的地方
1.iid

独立同分布(Identically and definitively distributed)
######2.关于方差和偏差的严格定义
西瓜书中,对于回归模型的方差偏差定义为
v a r ( x ) = E D [ ( f ( x ; D ) − f ‾ ( x ) ) ] var(x)=E_D[(f(x;D)-\overline{f}(x))] var(x)=ED[(f(x;D)f(x))]
b i a s 2 ( x ) = ( f ‾ ( x ) − y ) 2 bias^2(x)=(\overline{f}(x)-y)^2 bias2(x)=(f(x)y)2
其中, D D D是训练集
f ‾ ( x ) = E [ f ( x ; D ) ] \overline{f}(x)=E[f(x;D)] f(x)=E[f(x;D)]

分类问题中,目前(2015)仍然没有统一的方差偏差的定义

第十讲 特征选择

#####主要内容

  • VC维
  • 模型选择
  • 交叉验证
  • 简单保留交叉验证(simple hold out cross validation)70%-30%,
  • k折交叉验证(k fold cv)k=5,k=10,
  • 留一法(Leave one out)k=m
  • 特征选择
  • Forward Search
  • Backward Search
  • Filter feature selection(使用相关系数或互信息选择)
值得注意的地方

######1.最小化经验误差的合理性
我们训练的目的是为了得到一个泛化误差小的模型。
经验误差最终一致收敛到泛化误差。
对于所有试图最小化经验误差的算法,所需的训练样本大约与假设所需的参数呈线性关系(好的参数化)
######2.验证集误差
模型在验证集上的误差是对泛化误差更好的逼近

第十一讲 贝叶斯统计与正则化
主要内容
  • 贝叶斯Logistic回归,使用高斯分布作为先验分布,最终效果等价于在损失函数后增加一个正则化项,能够使得 结果更加平滑,防止过拟合。
  • 在线学习(Online learning)
  • 如何使机器学习算法应用得很好
  • 如何开始解决问题

#####值得注意的地方
######1.如何使机器学习算法应用更好
①偏差与方差诊断
High Variance: 训练误差远小于测试误差
High Bias:两个误差都很大
②模型问题还是算法收敛问题?
比较两个模型的加权准确率 α \alpha α J ( θ ) J(\theta) J(θ)(当前目标是最大化)
case1:
α s v m > α B L R \alpha_{svm}>\alpha_{BLR} αsvm>αBLR
J ( θ s v m ) > J ( θ B L R ) J(\theta_{svm})>J(\theta_{BLR}) J(θsvm)>J(θBLR)
说明BLR优化没有搜索到最佳的收敛点,属于优化问题

case2:
α s v m > α B L R \alpha_{svm}>\alpha_{BLR} αsvm>αBLR
J ( θ s v m ) &lt; J ( θ B L R ) J(\theta_{svm})&lt;J(\theta_{BLR}) J(θsvm)<J(θBLR)
说明BLR没有优化问题,但是满足损失函数最小却不一定使得 J J J更大,属于模型问题

③即使学习算法的效果很好,也需要进行诊断,这是为了

  • 帮助更好地理解问题
  • 得到更好的直觉关于一些有一点没用的东西
  • 通过诊断,了解算法的哪些特点解决了哪些问题

对于流水线组合而成的模型,可以将每个阶段更换成Ground Truth来诊断哪个阶段对最终误差的影响最大。
销蚀分析(Ablative analysis)
每次消除某个步骤看看对最终性能的影响。

######2.如何开始一个机器学习项目
Careful design
Build and fix
######3.一些经验
三分之一的时间用于诊断
做应用时,不必研究与应用相关不大的理论

第十二讲 K-means算法

#####主要内容

  • 无监督学习(Unsupervised Learning)
  • K-均值算法(K-means algorithm)
  • 密度估计(Density Estimation),异常检测(Anomaly Detection)
  • 最大期望算法(EM Algorithm)
值得注意的地方

######1.K-means的优化
K-means的失真函数
J ( c , μ ) = Σ i = 1 m ∥ x ( i ) − μ c ( i ) ∥ 2 J(c,\mu)=\Sigma^{m}_{i=1}\left \| x^{(i)}-\mu_{c^{(i)}} \right \|^2 J(c,μ)=Σi=1mx(i)μc(i)2
一定程度上衡量了分类的效果好坏,K-means运行过程中基本是在最小化这个函数,通过交替地对每个样本的 c ( i ) c^{(i)} c(i)与类中心 μ \mu μ的优化,相当于使用坐标上升进行优化。
######2.EM算法和GDA的比较
GDA已知标签,EM算法未知标签,GDA假设标签服从伯努利分布,EM算法假设服从多项分布,GDA假设协方差矩阵相同,EM算法假设不同。EM算法将GDA算法中对标签的指示函数改成了对标签的估计。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值