![](https://img-blog.csdnimg.cn/20190918140012416.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
斯坦福CS224n NLP
分享斯坦福CS224n NLP的课程
桐原因
这个作者很懒,什么都没留下…
展开
-
斯坦福CS224n NLP课程【十八】——应对深度NLP的局限性
深度学习已经漂亮地完成了许多单项任务,但如果我们继续随机初始化模型参数,我们永远也无法得到一个可以完全理解语言的系统。模型就像蒙住眼的狗,在高原上随机游走,头撞南墙。http://wx3.sinaimg.cn/large/6cbb8645gy1fhj73bfrvxg209e0go7wx.gifRichard说他同样不相信独立的无监督学习能够救世,虽然这个问题还存在许多争议。因为语言有许多监督与反馈,要完成的目标也多种多样。障碍1.通用架构没有单个模型能够胜任多个任务,所有模型要么结构不同,要原创 2020-10-21 09:12:01 · 384 阅读 · 0 评论 -
斯坦福CS224n NLP课程【十七】——NLP的问题和可能性架构
人们正在解决语言深度学习填平了领域鸿沟,许多计算机视觉的泰斗级学者也开始研究起自然语言处理的各种任务。这里提到的自然语言理解、机器翻译都是较高层次、更难的任务,现有系统做得并不那么好。未传承下来的志向早期NLP学者拥有崇高的目标,希望让机器像人一样理解语言;但奈何数据和计算力都有限,使得成效甚微。Manning说今天我们有了海量的数据与强大的计算力,却往往自满于跑个LSTM,而不愿意挑战这个终极目标。AI的师祖Norvig (1986)的Ph.D.论文The unified the.原创 2020-10-19 09:25:05 · 271 阅读 · 0 评论 -
斯坦福CS224n NLP课程【十六】——用于回答问题的动态神经网络
是否将所有NLP任务都可视作QA?举例:在old-school NLP系统中,必须手工整理一个“知识库”;然后在这个知识库上做规则推断。这节课介绍的DMN完全不同于这种方法,它能够直接从问答语料中学习所有必要的知识表达。DMN还可以在问答中做情感分析、词性标注和机器翻译。所以构建一个joint model用于通用QA成为终极目标。但是实现这个目标,有两个障碍1.没有任何已有研究探讨如何让单个模型学习各种不同的任务。每种任务都有独特的特点,适合不同的神经网络去实现2.Fully原创 2020-10-15 09:16:08 · 194 阅读 · 0 评论 -
斯坦福CS224n NLP课程【十五】——共指解析 指代消解
Coreference Resolution指代消解是什么?找出文本中名词短语所指代的真实世界中的事物。比如:不只是代词能够指代其他事物,所有格和其他名词性短语也可以。甚至还存在大量嵌套的指代:应用:全文理解:完整的文章中有大量的指代 机器翻译:土耳其语不区分男他和女她,翻译到英文的时候必须做指代消解;当然了,当前工业线上的MT系统大多做不了 文本摘要:使用代词会使行文更加自然 信息提取和QA系统:比如搜索“谁娶了Claudia Ross”,出来“He married ..原创 2020-10-13 09:22:20 · 1440 阅读 · 0 评论 -
斯坦福CS224n NLP课程【十四】——树RNN递归和短语句法分析
语言光谱模型对于语义相似性等这类目标来说,最好的方法还是词袋最简陋最常用的是词袋模型,或“词向量袋模型”。最复杂的可能是短语结构树,额外再标注一些诸如指代、语义等标签。这张图很形象,词袋中装不下所有单词,散落一地。虽然词袋模型很简陋,但它依然是一个很难击败的基线模型。它简单高效,通过一些聪明的技巧可以在一些任务中胜过深度神经网络。语言的语义解释--并不只是词向量词向量只是词语级别的向量,对于下列两句话,加粗部分其实意思是一致的:就算一个人没见过snowboarder这个单词.原创 2020-10-10 09:25:58 · 555 阅读 · 0 评论 -
斯坦福CS224n NLP课程【十三】——卷积神经网络
从RNN到CNN只能捕获上下文左侧的短语,RNN无法利用未来的特征预测当前单词,就算是bi-RNN,也不过是双向重蹈覆辙而已。经常把过多注意力放到最后一个单词上。比如,如果只想得到my birth的向量,RNN就无能为力了,因为它捕捉的是从左到右的“上文”。与此对应,softmax也是加在最后一个单词上的CNN的解决思路说来也很简单粗暴,那就计算相邻的n-gram,不管它到底是不是真正的短语,眉毛胡子一把抓地为它们计算向量。什么是卷积:定义在两个矩阵上的函数,生成另一个矩阵(也许称作te原创 2020-09-30 09:15:24 · 208 阅读 · 0 评论 -
斯坦福CS224n NLP课程【十二】——语音处理的端对端模型
Automatic Speech Recognition ASRASR就是将声学信号转化为文本的系统语音是一种自然的用户接口:传统ASR:传统做法的主体是生成式语言模型,建模声学信号与文本的发音特征的联合概率,但pipeline的不同部分掺杂了不同的机器学习模型现代ASR:神经网络兴起之后,人们发现传统pipeline中的每个模型都可以被一种对应的神经网络所替代,并且取得更好的效果:但是这么多混乱的目标函数各自为政,难免有顾此失彼的情况。这构成一种动机,为什么不用..原创 2020-09-28 09:30:16 · 279 阅读 · 0 评论 -
斯坦福CS224n NLP课程【十一】——GRU及NMT的其他议题
GRURNN: 直观上RNN是 1.管理过去对未来造成的影响2.x_t时刻如何影响到了x_t+n的时刻 我们能做的就是获取隐藏的状态用矩阵去乘,增加一些东西去处理输入之后就进入循环 但是这样下去就导致梯度消失 但是你不能解释真正发生了什么 不能看到t和t+n在数据上的联系 也可能是设置参数导致梯度的消失可能会导致梯度消失或者梯度爆炸 这些都是朴素 transition function 导致的问题在朴素transition function 中,每一步的矩阵乘法代表我们正在学习 这样对.原创 2020-09-24 09:14:42 · 182 阅读 · 0 评论 -
斯坦福CS224n NLP课程【十】——神经机器翻译NMT和注意力模型
机器翻译传统衡量机器对语言理解的测试之一 同时涉及到语言分析与理解 主要在欧洲,亚洲也在兴起机器翻译的需求Google每天翻译1000亿单词 Facebook研发了自己的翻译系统,因为通用的机器翻译系统无法适应社交领域 eBay用机器翻译来促进跨境交易什么神经机器翻译构造一个大型神经网络,我们可以以一种端到端的方式对这个网络进行训练和优化实现这个过程的系统,也可以说是用一个大型神经网络建模整个翻译过程的系统。架构抽象的架构就是一个encoder一个decoder:NM..原创 2020-09-22 09:21:49 · 379 阅读 · 0 评论 -
斯坦福CS224n NLP课程【九】——机器翻译和高级循环神经网络LSTMs和GRUs
GRU Gated Recurrent Unit门控循环单元先回顾之前学习的重要概念最简单的神经网络定义RNN传统机器翻译:传统的基于统计的机器学习系统是非常复杂的集合 传统的机器学习基于简单贝叶斯 后验概率等于其先验概率乘上似然 然后除以边缘概率第一步想要翻译就要做翻译模型 但是翻译的匹配的难度很大 单词可能会一对一 一对多 还有多对多 会形成潜在的组合爆炸 而且不同语言的语序并不一致解码:实际上就是很复杂的搜索问题 找到最大的假设深度学习...原创 2020-09-18 09:16:31 · 339 阅读 · 0 评论 -
斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式
语言模型语言模型计算一串句子的概率传统的语言模型:通常我们会以一个突破点为基础条件在尝试预测一个词之前 我们会尝试仅仅根据它前面的n个词语预测下一个词 这是使用传统的机器学习模型必要的 但却是错误的但是占用的内存较大 效率不好解决办法:RNN 从理论层面上来讲 我们可以根据所有前序字组来进行预测 如此一来 内存需求只会取决于字词的数量规模而不受我们想依据的序列长度的影响RNN语言模型主要思想:我们使用相同的权重进行更新在所有时间步长中如何进...原创 2020-09-16 09:21:18 · 252 阅读 · 0 评论 -
斯坦福CS224n NLP课程【七】——Tensorflow入门
介绍一下深度学习框架什么tensorflowtensorflow 程序的主干都是一个图 图节点是操作 是代码中的操作的简写 tensosr是n维的数组三种参数:变量 也是操作占位符 执行时间才会接收值的节点 输入数学操作节点实际的操作:主要分为三步:1.创建了权重W的变量 包括初始化 2.创建一个占位符 对输入x 3.最后建立我们的流式图如何运行?创建一个会话sess.run(fetches , feeds) Fetches:是返回节...原创 2020-09-14 09:17:40 · 143 阅读 · 0 评论 -
斯坦福CS224n NLP课程【六】——依存分析
首先了解一些术语句法 syntax语法 grammar依存关系 dependency parsing依赖语法 dependency grammars解析 parsing两种不同的观点对于语言结构phrase structure grammar 短语结构语法 也称为上下文无关语法依存语法:通过找到句子当中每一个词所依赖的部分来描述句子结构 如果一个词修饰另一个词 或者 一个词是另外一些词的一个论证 那么它就是那个词的依赖 对于语义模糊的句子可以使用依存语法进行分析..原创 2020-09-10 09:27:48 · 627 阅读 · 0 评论 -
斯坦福CS224n NLP课程【五】——反向传播和项目建议
关于习题集1的提示:理解数学和高维向量 设置断点并输入各种参数反向传播的第一种解释:在上节课中,我们定义了这个目标函数 最终把它写成导数的形式 倒数写了两遍是为了说明不一定非要计算函数值 只要在前向传播中记录它的激活值 就可以了 所以把f(Wx+b)定义为隐含激活值然后就可以再次使用它来计算导数再增加一层hidden 层 f()这里使用sigmoid函数 最大化s这个分数 通过这个内积来计算最终分数 这里的向量均为列向量有关导数的计算 hadamard计算 就是对应的项相乘...原创 2020-09-08 09:22:05 · 191 阅读 · 0 评论 -
斯坦福CS224n NLP课程【四】——Word Window分类与神经网络
分类直觉上的分类 在机器学习上 一般认为分类是逻辑回归问题,输入的x是固定的,只训练参数W也就是softmax的权值,然后给定输入x时输出y的概率softmax详解给定输入x时的输出为y的概率计算分成两步使用第y行的w乘以向量x Wy.x代表了取出了矩阵w的第y行与x相乘将这个向量输入到softmax中计算得到一个概率分布所有概率之和为1背景:为什么使用 Cross entropy 尽可能最小化两个分布之间的KL分布 而参数正是softmax的值(有关K...原创 2020-09-05 10:08:42 · 220 阅读 · 0 评论 -
斯坦福CS224n NLP课程【三】——高级词向量表示
复习上一节的内容如何获取Uo与Vc的vector,通过一个大的语料库进行搜索,以便获取到相应的vector,之后通过skip-gram的公式来进行计算获取词出现的概率。下图以deep为中心词,之后可以移动窗口,中心词变为learningskip-gram的小技巧:使用二元逻辑回归,我们保留了想要优化和最大化中心词和外围词的内积想法, 相对于遍历整个语料库实际上只取一些随机单词并指明,这些从语料库其余部分取出的随机词是不同时出现的 其中的sigmoid函数可以称之为一个想要最大化这两个词同时发生.原创 2020-09-02 09:39:44 · 174 阅读 · 0 评论 -
斯坦福CS224n NLP课程【二】——词向量表示:Word2vec
我们怎样表示一个词的含义?含义的定义:代表了词、句子的想法 signifier <-> signified指称物和被指称物两个部分,也就是形式与内容。我们如何在计算机中使用含义:通常使用WordNet这类的分类词典 表示上下位关系和同义词但是出现一个问题,对于这样的不同的同义词的区分度不够 一词多义大量的nlp处理基本都是使用原子单词也就是使用one-hot vector 表示词的含义,包含的词越多,维度就越大。但是无法表示词与词之间的联系我...原创 2020-08-31 18:30:10 · 570 阅读 · 0 评论 -
斯坦福CS224n NLP课程【一】——NLP和深度学习入门
NLP和深度学习入门什么是NLP?该课程主要讲述了句法分析以及语义理解 稍微涉及音素分析NLP的应用:机器翻译、对话机器人、回答问题人类语言的特殊性 连续、符号形式、不基于逻辑或者ai 变换形式多样但是我们需要去探索出一个有关想法的连续编码模式,但是机器学习会产生一个问题就是-sparsity 稀疏性所以需要使用深度学习什么是深度学习?梳理下机器学习与深度学习的关系 深度学习是机器学习的子领域 之前的机器学习基于人观察出来的特征做数值优化最后进行判断并...原创 2020-08-31 09:19:05 · 353 阅读 · 0 评论