![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine learning
文章平均质量分 51
solAmn
这个作者很懒,什么都没留下…
展开
-
机器学习笔记(1)从boost到xgboost
A. ensemble method将几个模型(可能是分类器)通过某种方式组合在一起,共同完成任务。通常可分为两大类:1. Averaging method例如 Bagging, RF。其主要工作在于数据的采样方式,比如是否随机采样,是否有放回等等。子分类器通常为能力较强的模型。最终结果常常取子分类器的算术平均。2. boosting method可以使用“弱”分类器,依次,逐个对子模型进行训练,...原创 2018-05-04 21:26:05 · 318 阅读 · 0 评论 -
Bias and Variance
一张比较经典的图[1]: 数学推导:第一项是Variance, 第二项是Bias(,即分类器的预测)[1] https://blog.csdn.net/wuzqChom/article/details/75091612 一个经典的问题:boosting降低Bias,而bagging(例如RF)降低Variance[2]。1.boosting例如A...原创 2018-08-27 13:27:40 · 146 阅读 · 0 评论 -
关于BN层的一点理解
一直以来对BN层两个学习参数belta和gamma不太理解,今天又在知乎问题上看到了“请问batch_normalization做了normalization后为什么要变回来?”这个问题,题主好像跟我之前想的一样(笑)。于是认真查阅了相关资料,得到以下一点见解: Internal Covariate Shift(ICS)[1]:对 DNN 某一层,随着 GD 训练的过程中参数的改变,该层的...原创 2018-08-23 12:55:33 · 6716 阅读 · 1 评论 -
EM算法的推导
0. Jensen不等式这里不做证明,只列举下文要用到的结论对在上为凸函数,即时,有,当且仅当X为常量时去等号(即a=b)1. EM推导设样本集,则似然函数的对数形式为:当含有隐变量z,则难以用MLE对计算。加入隐变量后,此时加入Q函数,作为z的某个分布,因此我们通过不断调整参数与变量z,使J不断逼近E步:固定,调整Q,使(可以证明)。...原创 2018-08-30 14:35:56 · 163 阅读 · 0 评论 -
L1与L2正则化
L1:其中第二项为L1正则化项,对w求偏微分:则第i个w的更新式为:可以看到,L1正则化使得每次更新时,固定加上或减去某一个常数,当w为正时做减法,反之做加法。这样一来使得值偏小的w,尽可能为0,以达到简化模型的目的。这里值偏小的w可以认为是‘对应于与输出无关的输入’,即该特征与目标无关联。(与L0正则化相似) L2:其中第二项为L2正则化项,对w求...转载 2018-09-03 21:52:08 · 144 阅读 · 0 评论