自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 NLP深度学习 —— CS224学习笔记10

2.3 深度双向RNN到目前我们都是使用以前的词来预测后面的词。双向深度神经网络是在每个时间点t,同时有2个隐藏层,一个从左往右传播,一个从右往左传播。最后的分类结果有两个的结合产生。方程式表达为多层的深度结构为2.4 应用:RNN翻译模型我们讨论有RNN来替代传统翻译模型的可能性。这里前3个隐藏层时间点编码来源语言,后2个将h3解码到目标语

2017-08-31 20:38:01 929

原创 NLP深度学习 —— CS224学习笔记9

2.1梯度爆炸或消失计算RNN的误差,我们计算每一步的误差并累加每一步的误差通过微分链法则进行在[k, t]时间区间内对于所有隐藏层的计算每个是h的雅各宾矩阵结合上述表达,我们得到beta_w和beta_h代表两个矩阵范式的上限值。每个t时间戳偏分梯度的的范式两个矩阵的范式通过L2正则来计算。容易变得很大或很小,导致梯度爆炸或消失。2

2017-08-30 22:52:30 614

原创 NLP深度学习 —— CS224学习笔记8

关键词:语言模型,RNN,双向RNN,深度RNN,GRU,LSTM1、语言模型语言模型计算在一个特定序列中一组词出现的概率。一般由一个窗口内之前的n个词决定。这个公式对于语言和翻译系统确定一个词序列是否是准确翻译尤其有用。现有的语言翻译系统中,对每个词组/句子翻译,软件生成一些可替换词组,例如I have, I had, I has, me have, me had等,然后对它

2017-08-29 20:55:11 753

原创 NLP深度学习 —— CS224学习笔记7

2、神经网络技巧和贴士2.1 梯度检查我们讨论了用微分来计算神经网络模型中参数的误差梯度,这里讨论另一种近似技巧,不需要误差反向 传播。其中这种方法计算成本极其高,要使用两次前向传播,但是一种验证反向传播的好方法。一个简单的梯度检查可以用以下方法实现2.2 正则我们使用L2正则防止过拟合是Frobenius范数。使用这样的约束可以解释为先验贝叶斯

2017-08-28 21:46:28 1004

原创 NLP深度学习 —— CS224学习笔记6

关键词:神经网络、前向计算、反向传播、神经单元、最大边际损失、梯度检查,Xavier参数初始化,学习速率,Adagrad1 神经网络基础神经网络是具有非线性决策边缘的分类器族群。1.1 神经元神经元是接受n个输入并生成单一输出的通用计算单元。影响输出结果的是神经元的参数,也叫权重。常用的神经元有sigmoid或者binary logistic regression

2017-08-27 18:35:01 1631

原创 NLP深度学习 —— CS224学习笔记5

2、外在任务训练1)大部分NLP外在任务可以转化为分类任务。例如句子情感分析,正面、负面或中性。同样在命名实体识别(NER),给定语境和词,我们要把词进行归类。例如[Jim]_person bought 300 shares of [Acme Corp.]_organization in [2006]_time。对于这样的问题,我们首先训练其中X是d维词向量,有词嵌入生

2017-08-24 20:48:19 642

原创 NLP深度学习 —— CS224学习笔记4

关键词:内在和外在评估,相似评估任务中超参数的影响,人类判断和词向量距离的相关性,用语境处理词歧义,窗口分类。词向量和词嵌入交叉使用1、词向量评估我们讨论了例如Word2Vec和GloVe等方法,来训练和发现语义空间中自然语言词的隐含向量表征。现在来定量评估这种技巧产生向量的质量。1)内在评估考虑一个例子,最终目的是建立一个问答系统,使用词向量作为输入。 一种方法是训练一个

2017-08-23 21:07:49 702

原创 NLP深度学习 —— CS224学习笔记3

四、3、 Skip-Gram 模型另一种方法是得到中间的词,然后由模型来预测或生成周边的词。这种模型被成为Skip-Gram模型。设置与此前的CBOW大致相同,只是调换了x和y的顺序。具体可以分解成6步:1)生成one hot 向量 x2)得到语境的嵌入词向量3)将4)生成2m得分向量使用5)将每个得分转换成概率y=softmax(u)6)期望生成的概率

2017-08-22 21:11:12 678

原创 NLP深度学习 —— CS224学习笔记2

基于迭代的方法相对于对数十亿的句子进行计算并储存其全局信息,我们尝试构建模型每次学习一个迭代来编码语境中词的概率。我们对已知和未知的参数设置概率模型,每次训练一个样本,学习基于输入的未知参数的一部分信息,以及模型期望的输出。每次运行模型,我们评估误差,遵循更新规则,并对引起误差的模型参数进行惩罚。这个理念早在1986年就已存在,即误差的反向传播方法。1、语言模型(unigram,

2017-08-21 21:09:31 886

原创 NLP深度学习 —— CS224学习笔记 1

关键词: 自然语言处理, 词向量, 奇异值分解, Skip-gram, 连续词袋(CBOW), 负抽样一、简介自然语言处理任务简单: 拼写检查, 关键词搜索, 找同义词中度: 从网页、文件解析信息困难: 机器翻译, 语义解析, 指代, 问题回答使用词向量可以把词编码成向量然后通过计算距离来判断相似性,可使用Jaccard, Cosine, Euclidean等二、词

2017-08-20 16:02:05 2834

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除