自然语言处理
文章平均质量分 94
COMP90042自然语言处理笔记
小羊和小何
渡人者自渡
展开
-
Lecture 2 Text Preprocessing
Lecture 2 Text Preprocessing。原创 2023-06-03 19:36:01 · 783 阅读 · 0 评论 -
Lecture 3 N-gram Language Models
Lecture 3 N-gram Language Models原创 2023-06-03 20:05:52 · 508 阅读 · 0 评论 -
Lecture 4 Text Classification
Input layer(features), output layer(class probabilities), and one or more hidden layers 输入层(特征),输出层(类别概率),以及一个或多个隐藏层。Classes: Topic categories E.g. “jobs”, “international news” 类别:主题类别 例如"工作",“国际新闻”Classes: entailment, contradiction, neutral 类别:蕴含,矛盾,中立。原创 2023-06-03 22:15:57 · 615 阅读 · 0 评论 -
Lecture 5 Part of Speech Tagging
Lecture 5 Part of Speech Tagging原创 2023-06-03 22:54:28 · 739 阅读 · 0 评论 -
Lecture 6 Sequence Tagging: Hidden Markov Models
Output independence: An observed event(word) depends only on the hidden state(tag) 输出独立性:观察到的事件(词)只取决于隐藏状态(标签) ->Correct way: Consider all possible tag combinations, evaluate them, take the max. 正确的方法:考虑所有可能的标签组合,评估它们,取最大值。原创 2023-06-04 00:45:26 · 658 阅读 · 0 评论 -
Lecture 7 Deep Learning for NLP: Feedforward Networks
Given a document, classify it into a predefined set of topics. E.g. economy, politics, sports 给定一个文档,将其分类到预定义的主题集合中。例如:经济,政治,体育。In feed-forward neural network language model, the first layer is the sum of input word embeddings 在前向传播神经网络语言模型中,第一层是输入词嵌入的和。原创 2023-06-04 18:02:55 · 496 阅读 · 0 评论 -
Lecture 8 Deep Learning for NLP: Recurrent Networks
Core idea: have memory cells that preserve gradients across time. Access to the memory cells is controlled by gates. 核心思想:拥有跨时间保存梯度的记忆单元。Gated recurrent unit (GRU): Simplified variant with only 2 gates and no memory cell 门控循环单元(GRU):简化的变体,只有2个门,没有记忆单元。原创 2023-06-04 21:15:25 · 2105 阅读 · 0 评论 -
Lecture 9 Lexical Semantics
在 NLP 中,我们为什么要关注词汇语义学?我们先来看一个情感分析的例子:假设现在我们有一个情感分析任务,我们需要预测一段给定文本的情感极性。Bag-of-words, KNN classifier. Training data: 词袋模型,KNN分类器。训练数据Two problems here: 这里存在两个问题Comparing words directly will not work. How to make sure we compare word meanings? 直接比较单词并不是一种很好的原创 2023-06-06 03:47:33 · 818 阅读 · 0 评论 -
Lecture 10 Distributional Semantics
这里,每一行都表示语料库中的一个文档,每一列表示语料库的词汇表中的一个单词,单元格中的数字表示该单词在对应文档中出现的频率。Unsupervised: Unlabelled corpus 无监督 原始的、无标签的语料库 正如前面所述,我们的模型无需标签,只要从给定的语料库按照窗口大小对其中出现的单词进行计数,并计算概率,进行学习即可。可以看到,单词 “the” 对应的列的值都为 0,这是因为其 IDF 值为 0,所以无论对应单元格的 TF 值为多少,相乘后得到的结果都是 0。原创 2023-06-06 18:06:21 · 492 阅读 · 0 评论 -
Lecture 11 Contextual Representation
我们学习了基于 ELMo 和 BERT 的单词上下文表示,以及它们在下游任务中的表现,并且也学习了如何将它们应用到下游任务中。这些模型都是在非常大的语料库上训练的。因此,它们构建了一些语言相关的知识。使用无监督目标,模型训练无需专门提供带标签数据集。由于模型是在非常大的语料库上训练的,因此,当我们将它们用于下游任务时,我们不再是从零开始(“scratch”)的状态,因为模型在某种程度上已经理解了一些单词含义相关的信息,以及单词之间的关系。原创 2023-06-07 09:02:31 · 607 阅读 · 0 评论 -
Lecture 12 Discourse
对于许多任务,考虑上下文要比考虑句子本身更重要。传统上,许多流行的 NLP 应用程序的关注点都在句子层面(例如机器翻译),但是这种情况已经开始改变……010.png。原创 2023-06-07 13:45:06 · 4403 阅读 · 0 评论 -
Lecture 13 Formal Language Theory & Finite State Automata
语言模型隐马尔可夫模型循环神经网络但是,这些模型都没有涉及到语言的本质,因为它们可以用于处理任何符号序列,而不仅限于单词、句子等。原创 2023-06-09 15:23:14 · 1335 阅读 · 0 评论 -
Lecture 14 Context-Free Grammar
Symbols:Productions:Start symbol: Context-Free:Given production rules: E.g.And a string: Produce a valid parse tree:If English can be represented with CFG:CFG strike a good balance:Sentences are broken into constituentsConstituents have certain key propert原创 2023-06-09 15:32:25 · 1374 阅读 · 0 评论 -
Lecture 15 Probabilistic Context-Free Grammar
Lecture 15 Probabilistic Context-Free Grammar。原创 2023-06-09 15:48:50 · 1232 阅读 · 0 评论 -
Lecture 16 Dependency Grammar
Lecture 16 Dependency Grammar。原创 2023-06-09 15:53:36 · 1224 阅读 · 0 评论 -
Lecture 17 Machine Translation
feargmaxePe∣frgmaxePf∣ePergmaxePf∣ePe)Pe)Pf∣ef∣e)alignmentfa∣ecomplexityxPy∣xPy1∣xPy2∣y1x...Pyt∣y1...yt−1xtrainingy∣xy∣x)OVnvariantsstThistT。原创 2023-06-09 18:27:17 · 986 阅读 · 0 评论 -
Lecture 18 Information Extraction
ORGORGPER] said.B-ORGbeginningof anORGentity.I-ORG[TIME ][TIME ]原创 2023-06-09 18:32:38 · 1602 阅读 · 0 评论 -
Lecture 19 Question Answering
animalsAdam Bandtfivehow?datasetCompute:Pstarti)Pendiq1...pmstarti∝exppiWsq)Pendi∝exppiWeqstarti∝expSTTi′)pendi∝expETTi′。原创 2023-06-09 18:46:22 · 1271 阅读 · 0 评论 -
Lecture 20 Topic Modelling
issuesUVlearningti∣wd∝Pti∣wPti∣d(Pti∣w→ti∣d→t1∣wdPt1∣mouse×Pt1∣d10.010.012.010.01×1.11.12.11.1ogPw1w2...wmlog∑j0TPw1∣tjPtj∣dw1。原创 2023-06-09 18:58:02 · 1485 阅读 · 0 评论 -
Lecture 21 Summarisation
XSum。原创 2023-06-09 19:07:06 · 947 阅读 · 0 评论 -
Lecture 22 Ethics
How we ought to live — Socrates原创 2023-06-09 19:10:11 · 1381 阅读 · 1 评论