![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
理论
文章平均质量分 90
shange19
这个作者很懒,什么都没留下…
展开
-
MLE最大似然估计和MAP最大后验概率的区别,利用MAP思想完成词性标注。
最近一直在搞懂啥是MLE,啥是MAP。MLE,最大似然估计,优化的是,求出它的最大值,其中是参数,D是数据;MAP,最大后验概率分布,优化的是,其中是参数,D是数据,通过贝叶斯定理可以认为等价于求,其中就是MLE,是先验分布。一般来说,这样就推导完了。MAP可以认为是MLE在多加一个先验概率,即在优化之前我们所掌握的信息。然后就是千篇一律的扔硬币举例,反正现在我明白MAP与MLE之间的关系...原创 2019-12-05 21:28:22 · 703 阅读 · 1 评论 -
简述决策树,随机森林和XGBOOST之间的关系
本文主要讲解:决策树,随机森林和xgboost,附带讲解AdaBoost和GBDT1.决策树这些算法都依赖于决策树或者决策树的各种魔改版,所以决策树是一定要掌握清楚的。决策树是一种常见的机器学习算法,决策树的目的是构造一种模型,使之能够从样本数据的特征属性中,通过学习简单的决策规则——IF THEN规则,从而预测目标变量的值。以西瓜的例子来说,给定类似色泽,根蒂以及敲声等特征,怎么判断一个...原创 2019-11-10 20:22:06 · 6044 阅读 · 1 评论 -
从理论上理解采用交叉熵作为损失函数的意义
简要解释为什么要使用交叉熵作为损失函数。用简短的话来解释就是:我们需要得到最大似然估计,即模型得到的预测分布应该与数据的实际分布情况尽可能相近。KL散度(相对熵)是用来衡量两个概率分布之间的差异。模型需要得到最大似然估计,乘以负Log以后就相当于求最小值,此时等价于求最小化KL散度(相对熵)。所以得到KL散度就得到了最大似然。又因为KL散度中包含两个部分,第一部分是交叉熵,第二部分是信息熵,即KL...原创 2019-11-04 21:46:22 · 3485 阅读 · 1 评论