自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 word embedding

词向量是如何起作用的? 自然语言的稀疏性、歧义性、病态性(not well defined)、变化性使得训练深层次网络很难泛化到现实任务上。 考虑词典大小为V,n个词组成的句子则有V^n种可能,虽然并不是所有句子都是合法的,但是可能的组合仍是无限。随便翻开一本书,大多数句子你可能从未见过。 人类能够轻松的理解、使用自然语言,但对语言是如何工作的却知之甚少,它来源于人类的高级认知。这也就限制...

2019-01-13 14:00:25 164

原创 频率学派和贝叶斯学派

频率学派和贝叶斯学派 这是两种看待概率的态度。我们生活中,常常借助概率来做判断。想象一下,你自己是如何看待概率的? 贝叶斯学派把概率当作一种确定性水平,把概率当作一种主观的参考依据。 频率学派把频率当作概率(古典概型)。它统计过去发生事件的频率当作概率,所以它是客观的。 可以举例说明二者的区别。 比如:你抛一枚硬币100次,有53次正面朝上,频率学派的观点认为,这枚硬币下次实验正面朝上的概率为0....

2018-11-10 14:57:35 550 1

原创 反向传播算法中的矩阵求导

反向传播中的梯度计算图矩阵求导多条链接 在神经网络算法中,可以把复杂的网络结构看作一个复合函数。即用一个函数表征输入与输出之间的关系。误差的反向传递,提供了确定这个函数的方法。这里的误差,指的就是梯度。所以,BP算法就是根据复合函数求导的链式法则一步步求得。 计算图 为了更直观的理解这个函数,我们用 m=a+b 、n=c+d 显然, f=mn 本例中前向传播的过程中,f=4.5, a若增加...

2018-10-07 20:41:48 2488

转载 拉格朗日乘子法和KKT条件

转载: http://www.cnblogs.com/mo-wang/p/4775548.html 看原博客就行了。原博客中有一处错误,就是,维基百科的那张图中,梯度的方向是上升的方向。也就是说d2>d1,原图应该是求最大值。不过思想是一样的。 在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的...

2018-09-07 15:44:19 164

转载 全概率公式、贝叶斯公式推导过程

全概率公式、贝叶斯公式推导过程 转载:https://www.cnblogs.com/ohshit/p/5629581.html (1)条件概率公式 设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为: P(A|B)=P(AB)/P(B) (2)乘法公...

2018-09-06 16:48:26 405

原创 logistic regression

sigmoid 函数 祥见百度百科:https://baike.baidu.com/item/Sigmoid函数/7981407?fr=aladdin 这个算法比较简单,下图展示了模型假设和学习准则。 基本想法就是,用sigmoid函数的输出作为分类为1的估计值即P(y=1|θ;x),那么分类为0的概率为1-P(y=1|θ;x)。那么 如图中所示,当类别为1时,第二个乘数为1。...

2018-08-24 10:41:59 143

原创 梯度下降法

梯度下降法原理 梯度下降法又叫盲人下山法,沿着最陡峭的地方,下降最快。 直观的理解,在自变量的极小阈内,导数大于0,函数递增。导数小于0,函数递减。所以沿着梯度的方向函数增加最快。沿着梯度的负方向,函数降低最快。 由泰勒公式的一阶展开式得到: 梯度的初始值 初始值一般设定为0。神经网络中,一般设定为随机值(防止由于网络的对称性,造成参数更新的对称性)。 步长的设定 步长一般设...

2018-08-23 10:10:40 604

原创 linear regression

回归 这个概念源于英国生物学家对人类身高的研究。自然界有一种约束力,使人类身高在一定时期是相对稳定的。如果父 母身高(或矮了),其子女比他们更高(矮),则人类身材将向高、矮两个极端分化。自然界不这样做,它让身高有一种回归到中心的作用。 linear regression 一个机器学习模型可以划分为三部分。 hypothesis 假设 在这个阶段建立对模型的假设(通常包含未知参数) le...

2018-08-22 21:43:07 148

原创 线性代数的本质

线性代数的本质 从几何角度直观理解线性代数 矩阵与线性变换 向量的线性变换包括 :向量数乘 和 向量加法。 用网格上的点表示向量空间内原有基向量所张成的空间。对向量空间内的所有向量进行相同的线性变换,等同于去拉扯这个网格使之变形,但是网格线需要保持平行且等距分布和原点不变,从几何上可以如下图去理解: 把矩阵的每一列看作基向量,如图所示: 那么,矩阵乘法,就可以看作计算...

2018-08-22 15:23:57 301

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除