机器学习这件事
loserChen.
这个作者很懒,什么都没留下…
展开
-
从贝叶斯的角度看正则化
一、正则化一般来说,监督学习可以看做最小化下面的目标函数:其中,第一项L(yi,f(xi;w)) 衡量我们的模型(分类或者回归)对第i个样本的预测值f(xi;w)和真实的标签yi之前的误差。因为我们的模型是要拟合我们的训练样本的嘛,所以我们要求这一项最小,也就是要求我们的模型尽量的拟合我们的训练数据。但正如上面说言,我们不仅要保证训练误差最小,我们更希望我们的模型测试误差小,所以我们需要加...转载 2019-03-26 14:27:19 · 1791 阅读 · 0 评论 -
为什么说bagging是减少variance,而boosting是减少bias?
Bagging中有两个操作都可以达到降低variance的效果,首先每一轮生成树的时候都是用bootstrap的方式在采样,即保证了数据集的相对多样性;此外bagging还随机选择k个特征,这可以进一步保证每个树之间的差异性,因此对于单独的一棵树来说它的偏差是非常高的,但是由于bagging生成的树可以是多种多样的,达到了防止过拟合的作用,即降低了方差。而对于bias来说的话,由于基分类器优化的目...原创 2019-03-26 14:47:35 · 874 阅读 · 0 评论 -
简单易懂的softmax交叉熵损失函数求导
参考简单易懂的softmax交叉熵损失函数求导所得。原创 2019-04-11 21:17:04 · 277 阅读 · 0 评论 -
降维:LDA与PCA的简析理解
LDALDA(二分类情况)LDA是一种监督学习的降维技术,也就是说LDA依赖于样本的类别输出。LDA的基本思路就是将样本投影到一条直线上,使类间距离尽可能变大,类内距离尽可能变小。如下图所示:那么我们可以通过y=wTxy=w^Txy=wTx来计算投影,当x是二维的时候,我们就需要找到一个w来做投影,然后寻找最能使样本点分离的直线。那么我们应该如何来找到最佳的w呢?我们分别选择两个类别的...原创 2019-03-07 10:38:20 · 700 阅读 · 0 评论 -
关于极大似然函数与概率的理解
概率对概率p(x∣w)p(x|w)p(x∣w)是描述固定参数w时,随机变量x的分布情况。极大似然函数对于L(θ|x)=f(x|θ)这个等式表示的是对于事件发生的两种角度的看法。其实等式两遍都是表示的这个事件发生的概率或者说可能性。再给定一个样本x后,我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为f,里面有参数theta。对于...原创 2019-04-09 14:51:23 · 778 阅读 · 0 评论