学习笔记
Chailyn_Trista
这个作者很懒,什么都没留下…
展开
-
Stanford 深度自然语言处理 学习笔记(一)
1、深度学习与机器学习的主要区别:深度学习自动学习特征,机器学习使用人工特征,所做工作在于数值优化。深度学习是表征学习(representation learning,自动学习特征 )的一个分支,得到多层特征。人工特征通常over-specified,incomplete. 而learned features 更加灵活通用,训练过程中不断学习和提升。2、为什么NLP难?人类语言...原创 2018-07-30 10:03:14 · 550 阅读 · 0 评论 -
Stanford 深度自然语言处理 学习笔记(二)
1、one-hot缺点:无法表示词之间的近似含义(相似性)。究其根本你会发现,是你开了一个极高维度的空间,然后每个词语都会占据一个维度,因此没有办法在空间中关联起来。因此我们可能可以把词向量的维度降低一些,在这样一个子空间中,可能原本没有关联的词就关联起来了。(寒小阳的博客)2、distributional similarityrepresent a word by means of ...原创 2018-07-30 12:09:45 · 420 阅读 · 0 评论 -
Stanford 深度自然语言处理 学习笔记(三)
归一化因子的计算代价很大(softmax的分母部分)。Negative Sampling用sigmoid表概率。主要的思路:对一对实际的词对(一个中心词及一个窗口内的其他词)和一些随机的词对(一个中心词及一个随机词)训练二元逻辑回归模型(参见 这篇文章) 保证一些出现比较少的词可以被尽可能多的抽样 (参见寒小阳博客)这里的 表示“错误的”或者“负面的”语料库。我们可以从...原创 2018-07-31 09:12:09 · 267 阅读 · 0 评论 -
Stanford 深度自然语言处理 学习笔记(七)
本节课是tensorflow入门 axis=1表示列。合为一列。 lr表示learning rate Visual Dialog 三个向量合并后连接全连接层和解码器 线性回归 命名 需要调用多个命名作用域skip-gram定义 skipgram()修改skipgram(), 在返回前增加验证集的处理定义 ru...原创 2018-08-01 16:01:05 · 221 阅读 · 0 评论 -
Stanford 深度自然语言处理 学习笔记(八)
概率越大,越有可能是正确的表达。 RNN 关于梯度当t-k足够大且βWβh比1小或比1大时,指数(βWβh)t−k很容易为较小或较大的值。由于词距较远的交叉熵误差通过t-k来评估。当梯度消失时,在迭代t中词距较远的词对于预测下一个词的贡献度将会逐渐下降。 在实验过程中,一旦梯度值增长很大,就会很容易探测到其引起的溢出(如:无穷与非数值);这就是梯度爆炸...原创 2018-08-01 17:05:59 · 264 阅读 · 0 评论 -
Stanford 深度自然语言处理 学习笔记(九)
复习 机器翻译传统的机器翻译需要很多人工特征 编码器使用RNN扩展:使得两个单元解耦,同时两个RNN模块都会有更高的准确率。这意味着编码器和解码器有不同的W(hh)矩阵。解码阶段的输入改变翻转输入词的顺序使对应词的位置更靠近,能够减少输出阶段的误差比例,减少梯度消失问题 ...原创 2018-08-02 10:23:40 · 298 阅读 · 0 评论 -
Stanford 深度自然语言处理 学习笔记(十)
注意力机制为各隐层节点分配不同的注意力(权重)。可按需访问隐层状态。利用注意力模型在源和目标之间建立隐式的关联。可以看成一种对齐。打分函数————>分数—softmax—>权重。加权和就是上下文向量。用到了编码器的全部隐层状态信息。不同时刻分配的权重不同。第二种方法使ht和hs形成更复杂的交互。第三种方法使用单层神经网络,ht和hs没有交互。...原创 2018-08-02 10:33:47 · 352 阅读 · 0 评论 -
tensorflow实操 word2vec 小白入门
为了让更多胖友体会到和我一样的快感!首先务必更新您的tensorflow!(本人1.9.0)然后(以下来自Sanford CS224n的课题代码)utils.py# -*- coding: utf-8 -*-"""Created on Thu Aug 02 15:39:24 2018@author: lulu"""import osimport gzipim...原创 2018-08-02 20:22:44 · 594 阅读 · 0 评论