数学基础
文章平均质量分 55
记录机器学习或信号处理领域中遇到的数学问题
李攀007
这个作者很懒,什么都没留下…
展开
-
把互信息写成KL散度的形式
p(y)p(y)p(y)表示变量y的分布;p(y∣x)p(y|x)p(y∣x)表示已知x的情况下y的分布;KLKLKL表示两个分布之间的差异;ExE_{x}Ex表示按变量x求期望。由此可以看出,互信息其实就是:已知x之后y的分布 和 原始y分布 之间差异的期望。...原创 2021-11-01 17:07:15 · 323 阅读 · 0 评论 -
直观理解:为什么A为 n 阶满秩方阵时,Ax=0 只有零解?
本篇博客仅记录一下我个人思考的一点想法,方便以后回顾。并不严谨,希望给大家提供一点直观的理解。通过上边的变形,我们可以看出AxAxAx的本意就是用x=[x1x2...xn]x=[x_{1} x_{2} ... x_{n}]x=[x1x2...xn]作为系数对AAA的列向量[A1A2...An][A_{1} A_{2} ... A_{n}][A1A2...An]进行重新组合得到一个新向量。例如,我们从原点出发,先加上3倍的x轴单位向量[1,0,0][1,0,0][1,0,0],再加上2.原创 2021-08-20 15:29:53 · 10773 阅读 · 4 评论 -
shapley值法 - 用边际收益衡量每个人的贡献
博弈论中利益分配问题https://www.zhihu.com/question/23180647催化剂对于最终结果的促进作用很大,但是只有催化剂没有原料的情况下,催化剂自身不可能单独得到目标,这样我们就会严重低估催化剂的贡献。shapley value就是为了更客观的评估每个参与成分的贡献。举个不恰当的例子:水分解制氧气 H2O ——> H2+O2只有H2O的情况下单位时间只能得到一份子O2,如果加入Fe进行催化,单位时间能得到五分子O2,显然Fe对于我们生成氧气的贡献非常大。但是.原创 2021-06-14 20:17:11 · 874 阅读 · 0 评论 -
理解矩阵
理解矩阵一:https://www.cnblogs.com/marsggbo/p/10143065.html①“容纳运动是空间的本质特征。”②““空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动。”③“在线性空间中选定基之后,向量刻画对象,矩阵刻画对象的运动,用矩阵与向量的乘法施加运动。”理解矩阵二:https://www.cnblogs.com/marsggbo/p/10143439.html①“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,只要我们选定一组基,那么对.转载 2021-01-20 19:19:52 · 203 阅读 · 0 评论 -
交叉熵的本质是极大似然估计
转载自 https://www.zhihu.com/question/65288314/answer/849294209==交叉熵==这东西你如果理解为两个概率分布会发现它就是nonsense,你得把对数里面那个分布理解为真实的随机变量分布,而将对数外面那个理解为观察到的频率。然后你就会发现它就是最最原始的MLE(最大似然估计)套了个时髦的壳而已。比如说现在有一个真实分布为 P(x) 的随机变量,我们对它进行了N次独立同分布实验,对于每个可能的结果x观察到的次数为 N(x) ,那么它的似然值就可以写.转载 2021-01-14 16:33:22 · 482 阅读 · 0 评论 -
理解牛顿法
参考1 https://www.zhihu.com/question/20690553/answer/146104283参考2 https://www.cnblogs.com/gaoxing2580/p/12423432.html先看上边参考链接,下边是我补充的一些想法。补充想法的原因是,参考了很多文章,但理解思路之间差异很大。一半是说几何理解的,即以直代曲,用切线的根去逼近原函数的根。一半是说数学理解的,即用泰勒公式近似,然后进行推导。但是求根用的是一阶导数写出切线,泰勒展开又要展成二阶导数,让我.原创 2020-11-21 08:26:48 · 341 阅读 · 0 评论 -
梯度为什么是函数增加最快的方向
参考 https://zhuanlan.zhihu.com/p/38525412在神经网络梯度下降算法中,我们潜意识就会默认梯度的反方向是Loss下降最快的方向,那么如何证明呢?首先回顾一点基础知识(为方便理解,多元函数我们就用二元函数举例。注意这里的二元指的是自变量的个数,即X、Y都是自变量。f(X,Y)是因变量,你也可以把它理解成Z。整个二元函数是发生在三维空间中的,是一个曲面。我们探讨函数f(X,Y)在(X0,Y0)点处变化时,指的是自变量X、Y在XOY这个投影平面内的变化。先说这么多,方便后.原创 2020-11-20 16:48:28 · 2697 阅读 · 0 评论 -
信息量和互信息
记录学习分享理解信息量https://blog.csdn.net/tsyccnh/article/details/79163834自信息量:-I(xi) = -log( P(xi) )信息熵:(自信息量的期望)H(X) = -∑P(xi) * log( P(xi) )条件熵:(条件信息量的期望。前边是xi和yj同时发生的概率,就是求期望)H(X|Y) = -∑P(xi, yj) * log( P(xi | yj) )联合熵:H(X, Y) = -∑P(xi, yj) * log.原创 2020-11-12 15:51:07 · 3949 阅读 · 0 评论 -
泰勒展开的理解
记录学习分享参考 https://www.zhihu.com/tardis/sogou/qus/25627482仿造的过程:由整体到局部,由大面到细节。先在整体上相似,然后在越来越细微的局部上相似,最终连很细微的局部都相似之后,就实现了仿真。泰勒展开的目的: 就是将sin(x)、ex等不易求解的函数近似成多项式函数形式 a0+a1x1+a2x2+…,这样就可以方便的代数求解。所以泰勒展开的过程就是用多项式函数仿造原始函数的过程。泰勒思考仿造的过程也是从全局相似逐步到细节相似,一阶导数影响最大,二.原创 2020-11-12 09:14:45 · 4033 阅读 · 3 评论