CS224n NLP with DL
CS224n: Natural Language Processing with Deep Learning
Instructor: Chris Manning
http://t.cn/EMTUbwd
扬州小栗旬
这个作者很懒,什么都没留下…
展开
-
cs224笔记:Lecture 10 (Textual) Question Answering
1 Motivition: Question Answering对于大量的文本,我们经常需要一个应用来实现根据询问的问题返回相应的答案,可以大致的分为两种:1 返回一个文本,这个文本中可能包含答案这个问题可以使用传统的**信息检索/网络搜索(information retrieval/web search)**技术解决2 从一个文本段落或者文件中找答案通常这个问题被称为阅读...原创 2019-10-16 10:46:32 · 199 阅读 · 0 评论 -
cs224笔记:Lecture 9 a review
1 构建项目途径Look at ACL anthology for NLP papers: https://aclanthology.infoAlso look at the online proceedings of major ML conferences: NeurIPS, ICML, ICLRLook at online preprint servers, especially: ...原创 2019-10-16 10:45:12 · 192 阅读 · 0 评论 -
cs224笔记:Lecture 1 Introduction and Word Vectors
Lecture 1: Introduction and Word VectorsRepresenting words as discrete symbols在传统NLP使用discrete symbols表示词,即one-hot编码,各个单词向量之间是**正交(orthogonal)的,因此没有相似性(similarity)的概念。例如:motel=[0,0,0,0,1,0,0]Thote...原创 2019-09-12 09:48:04 · 243 阅读 · 0 评论 -
cs224笔记: Lecture 2 Word Vectors and Word Senses
Lecture 2: Word Vectors and Word Senses1 Main Idea of Word2Vec :遍历语料库(corpus)中的每一个单词通过词向量预测周围的单词如以下单词序列,使用center单词’into’来预测它周围的单词出现的概率p(o∣c)=exp(uoTvc)∑w∈Vexp(uwTvc)p(o|c) = \frac{exp(u_o^Tv_...原创 2019-09-16 14:44:06 · 222 阅读 · 2 评论 -
cs224笔记: Lecture 3a Matrix Calculus
Matrix Calculus1 Jacobian Matrix假设有函数f:Rn→Rmf:\mathbb{R}^n \rightarrow\mathbb{R}^mf:Rn→Rm,即将一个长度为nnn的向量映射成长度为mmm的向量,f(x)=[f1(x1,x2,...,xn),f2(x1,x2,...,xn),...,fm(x1,x2,...,xn)]\mathbf{f}(\mathbf{...原创 2019-09-19 09:54:34 · 146 阅读 · 3 评论 -
cs224笔记:Lecture 8 Machine Translation, Seq2Seq and Attention
8 Machine Translation, Seq2Seq and Attention1 Pre-Neural Machine Translation机器翻译(Machine Translation, MT)的就是将一种语言(source language)的句子翻译到另一种语言(target language)的句子。关于machine translation的研究最早能追溯到20世纪5...原创 2019-10-11 15:02:39 · 508 阅读 · 1 评论 -
RNN Vanishing Gradient
RNN Vanishing GradientRNN Forward Propagation:h(t)=σ(Whh(t−1)+Wxx(t)+b1)y^(t)=softmax(Wsh(t)+b2))\mathbf{h}^{(t)} = \sigma(\mathbf{W}_h \mathbf{h}^{(t-1)}+\mathbf{W}_x \mathbf{x}^{(t)}+\mathbf{b}_1...原创 2019-09-26 13:16:40 · 188 阅读 · 0 评论 -
Naive Softmax&Negative Sampling
Naive Softmax&Negative SamplingNaive Softmax损失定义为:J=−logexp(uoTvc)∑w=1Vexp(uxTvc)=−logexp(uoTvc)+log∑w=1Vexp(uxTvc)=−uoTvc+log∑w=1Vexp(uxTvc)\begin{aligned}J &= -\log \frac{exp(u_o^Tv...原创 2019-09-20 15:56:21 · 907 阅读 · 2 评论 -
cs224笔记:Lecture 7 Vanishing Gradient and fancy RNNs
Vanishing Gradient and fancy RNNs1 Vanishing Gradient(梯度消失)RNN:h(t)=σ(Whh(t−1)+Wxx(t))y^(t)=softmax(Wsh(t))\mathbf{h}^{(t)} = \sigma(\mathbf{W}_h \mathbf{h}^{(t-1)}+\mathbf{W}_x \mathbf{x}^{(t)}) ...原创 2019-09-27 11:10:16 · 177 阅读 · 0 评论 -
cs224笔记: Lecture 3 Neural Networks
Neural Networks1. 分类任务(Classification)(xi,yi)i=1N(\pmb{x_i}, \pmb{y_i})_{i=1}^N(xixixi,yiyiyi)i=1N其中x\pmb{x}xxx为输入(inputs),y\pmb{y}yyy为标签(labels)传统机器学习/统计学习方法:假设输入是固定的,训练softmx/...原创 2019-09-18 14:38:11 · 531 阅读 · 1 评论 -
cs224笔记:Lecture 5 Dependency Parsing
Dependency ParsingLinguistic Structure: Denpendency Parsing(依存句法分析)1 Two views of linguistic structure: Constituency structure, Dependency structureParse trees(解析树,语法分析树) 用于分析句子的语法结构(syntactic stru...原创 2019-09-24 10:24:55 · 1374 阅读 · 2 评论 -
cs224笔记: Lecture 4 Backpropagation and Computation Graph
Backpropagation and Computation Graph1. Derivative w.r.t. a weight matrix还是之前的那个例子,应用chain rule求解梯度,前向计算式子如下:s=uThh=f(z)z=Wx+bs=\mathbf{u}^T\mathbf{h}\\\mathbf{h}=f(\mathbf{z})\\\mathbf{z}=\mat...原创 2019-09-19 17:54:51 · 521 阅读 · 1 评论 -
cs224笔记:Lecture 6 Language Models and RNNs
Language Models and RNNs1 Language ModelLanguage Model is the task of predicting what word comes next.更正式的:给定一个单词序列,x(1),x(2),...,x(t)\mathbf{x^{(1)}},\mathbf{x^{(2)}},...,\mathbf{x^{(t)}}x(1),x(2)...原创 2019-09-25 13:40:20 · 189 阅读 · 0 评论