数学
文章平均质量分 75
少儿西笑
自然语言处理工程师
展开
-
为什么信息熵要定义成-Σp*log(p)
作者:西贝链接:https://www.zhihu.com/question/30828247/answer/64816509来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。我从一个非常直观的角度来解释一下熵的定义为什么如题主所示。第一,假设存在一个随机变量x,可以问一下自己当我们观测到该随机变量的一个样本时,我们可以接受到多少信息量呢?毫无疑问,当我们被告...转载 2018-11-27 11:50:33 · 593 阅读 · 0 评论 -
MLE和MAP
Q:请解释什么叫MLE,什么叫MAP? 请说明它们之间的区别。 在数据量无穷多的时候,是否MAP 趋近于MLE估计?最大似然估计(MLE,Maximum Likelihood Estimation)根据数据来估计模型的参数。MLE的目标是找出一组参数,使得模型产生出观测数据的概率最大。简单地说,MLE就是根据观测到的数据来估计参数(数据产生的环境)。观测到一堆数据,假如我们知道它是从某一种分布...转载 2019-02-21 20:09:21 · 2992 阅读 · 0 评论 -
overflow and underflow
Q: 什么叫underflow, 什么叫overflow? 对于很多的AI问题,如果出现很多概率的相乘,我们通常都在最前面加log, 为什么? ⽐如 argmax p(x), 通常求解 argmax log p(x)。 对于softmax 函数,我们去实现的时候怎么避免underflow 或者 overflow?首先,实数在计算机内用二进制表示,所以不是一个精确值,当数值过小的时候,被四舍五入为...原创 2019-02-19 20:56:40 · 1450 阅读 · 0 评论