库柏-CSDN博客

原创 word embedding

词向量是如何起作用的？自然语言的稀疏性、歧义性、病态性（not well defined）、变化性使得训练深层次网络很难泛化到现实任务上。考虑词典大小为V，n个词组成的句子则有V^n种可能，虽然并不是所有句子都是合法的，但是可能的组合仍是无限。随便翻开一本书，大多数句子你可能从未见过。人类能够轻松的理解、使用自然语言，但对语言是如何工作的却知之甚少，它来源于人类的高级认知。这也就限制...

2019-01-13 14:00:25 164

原创频率学派和贝叶斯学派

频率学派和贝叶斯学派这是两种看待概率的态度。我们生活中，常常借助概率来做判断。想象一下，你自己是如何看待概率的？贝叶斯学派把概率当作一种确定性水平，把概率当作一种主观的参考依据。频率学派把频率当作概率（古典概型）。它统计过去发生事件的频率当作概率，所以它是客观的。可以举例说明二者的区别。比如：你抛一枚硬币100次，有53次正面朝上，频率学派的观点认为，这枚硬币下次实验正面朝上的概率为0....

2018-11-10 14:57:35 550 1

原创反向传播算法中的矩阵求导

反向传播中的梯度计算图矩阵求导多条链接在神经网络算法中，可以把复杂的网络结构看作一个复合函数。即用一个函数表征输入与输出之间的关系。误差的反向传递，提供了确定这个函数的方法。这里的误差，指的就是梯度。所以，BP算法就是根据复合函数求导的链式法则一步步求得。计算图为了更直观的理解这个函数，我们用 m=a+b 、n=c+d 显然， f=mn 本例中前向传播的过程中，f=4.5, a若增加...

2018-10-07 20:41:48 2488

转载拉格朗日乘子法和KKT条件

转载： http://www.cnblogs.com/mo-wang/p/4775548.html 看原博客就行了。原博客中有一处错误，就是，维基百科的那张图中，梯度的方向是上升的方向。也就是说d2>d1，原图应该是求最大值。不过思想是一样的。在求解最优化问题中，拉格朗日乘子法（Lagrange Multiplier）和KKT（Karush Kuhn Tucker）条件是两种最常用的...

2018-09-07 15:44:19 164

转载全概率公式、贝叶斯公式推导过程

全概率公式、贝叶斯公式推导过程转载：https://www.cnblogs.com/ohshit/p/5629581.html （1）条件概率公式设A,B是两个事件，且P(B)&amp;amp;amp;amp;gt;0,则在事件B发生的条件下，事件A发生的条件概率（conditional probability)为： P(A|B)=P(AB)/P(B) （2）乘法公...

2018-09-06 16:48:26 405

原创 logistic regression

sigmoid 函数祥见百度百科：https://baike.baidu.com/item/Sigmoid函数/7981407?fr=aladdin 这个算法比较简单，下图展示了模型假设和学习准则。基本想法就是，用sigmoid函数的输出作为分类为1的估计值即P(y=1|θ;x)，那么分类为0的概率为1-P(y=1|θ;x)。那么如图中所示，当类别为1时，第二个乘数为1。...

2018-08-24 10:41:59 143

原创梯度下降法

梯度下降法原理梯度下降法又叫盲人下山法，沿着最陡峭的地方，下降最快。直观的理解，在自变量的极小阈内，导数大于0，函数递增。导数小于0，函数递减。所以沿着梯度的方向函数增加最快。沿着梯度的负方向，函数降低最快。由泰勒公式的一阶展开式得到：梯度的初始值初始值一般设定为0。神经网络中，一般设定为随机值（防止由于网络的对称性，造成参数更新的对称性）。步长的设定步长一般设...

2018-08-23 10:10:40 604

原创 linear regression

回归这个概念源于英国生物学家对人类身高的研究。自然界有一种约束力，使人类身高在一定时期是相对稳定的。如果父母身高（或矮了），其子女比他们更高（矮），则人类身材将向高、矮两个极端分化。自然界不这样做，它让身高有一种回归到中心的作用。 linear regression 一个机器学习模型可以划分为三部分。 hypothesis 假设在这个阶段建立对模型的假设（通常包含未知参数） le...

2018-08-22 21:43:07 148

原创线性代数的本质

线性代数的本质从几何角度直观理解线性代数矩阵与线性变换向量的线性变换包括：向量数乘和向量加法。用网格上的点表示向量空间内原有基向量所张成的空间。对向量空间内的所有向量进行相同的线性变换，等同于去拉扯这个网格使之变形，但是网格线需要保持平行且等距分布和原点不变，从几何上可以如下图去理解：把矩阵的每一列看作基向量，如图所示：那么，矩阵乘法，就可以看作计算...

2018-08-22 15:23:57 301

qq_36420612的博客