dl中的一些概念学习

损失函数:

除最小均方误差(mse)外 还有交叉熵(cross entropy)

交叉熵损失函数为:

对权重求导:

参考:http://blog.csdn.net/u012162613/article/details/44239919

word embedding 

Distributed representation 用来表示词,通常被称为“Word Representation”或“Word Embedding”

 最词向量表示一个词原来是one hot vector,出现或者我们关注的词可能非常大,那么这个词向量的维度很高。

word embedding是一种词向量降维方法。

比如六级词汇有7000个词,那么表示这个词的one hot vector是一个灰常稀疏的7000维度的向量。

word embedding把一个词转成比如128维的向量,每一维是一个浮点数,而且通过这种向量可以计算距离(距离可以描述词义的相近程度)

转化方法是基于词相关矩阵+神经网络、降维的方法。(具体我也不懂,直角坐标系抽象了空间的维度,128维抽象了词的维度)

参考:http://blog.sina.com.cn/s/blog_584a006e0101rjlm.html


KL距离

(Kullback-Leibler Divergence)又称相对熵,KL散度。

一个离散随机变量服从分布p_k,另一个离散随机变量服从分布q_k,两个随机变量的KL距离为:

当两个水机变量的分布一致时,d=0。

 Let a discrete distribution have probability function p_k, and let a second discrete distribution have probability function q_k. Then the relative entropy of p with respect to q, also called the Kullback-Leibler distance, is defined by



Although , so relative entropy is therefore not a true metric, it satisfies many important mathematical properties. For example, it is a convex function of p_k, is always nonnegative, and equals zero only if .

,



lstm中的门link http://blog.csdn.net/malefactor/article/details/51183989

                            参考:http://www.jianshu.com/p/9dc9f41f0b29


seq2seq

refer:http://www.jianshu.com/p/124b777e0c55


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值