- 博客(123)
- 收藏
- 关注
原创 Lecture 20 Topic Modelling
issuesUVlearningti∣wd∝Pti∣wPti∣d(Pti∣w→ti∣d→t1∣wdPt1∣mouse×Pt1∣d10.010.012.010.01×1.11.12.11.1ogPw1w2...wmlog∑j0TPw1∣tjPtj∣dw1。
2023-06-09 18:58:02 1480
原创 Lecture 19 Question Answering
animalsAdam Bandtfivehow?datasetCompute:Pstarti)Pendiq1...pmstarti∝exppiWsq)Pendi∝exppiWeqstarti∝expSTTi′)pendi∝expETTi′。
2023-06-09 18:46:22 1268
原创 Lecture 18 Information Extraction
ORGORGPER] said.B-ORGbeginningof anORGentity.I-ORG[TIME ][TIME ]
2023-06-09 18:32:38 1602
原创 Lecture 17 Machine Translation
feargmaxePe∣frgmaxePf∣ePergmaxePf∣ePe)Pe)Pf∣ef∣e)alignmentfa∣ecomplexityxPy∣xPy1∣xPy2∣y1x...Pyt∣y1...yt−1xtrainingy∣xy∣x)OVnvariantsstThistT。
2023-06-09 18:27:17 986
原创 Lecture 15 Probabilistic Context-Free Grammar
Lecture 15 Probabilistic Context-Free Grammar。
2023-06-09 15:48:50 1231
原创 Lecture 14 Context-Free Grammar
Symbols:Productions:Start symbol: Context-Free:Given production rules: E.g.And a string: Produce a valid parse tree:If English can be represented with CFG:CFG strike a good balance:Sentences are broken into constituentsConstituents have certain key propert
2023-06-09 15:32:25 1369
原创 Lecture 13 Formal Language Theory & Finite State Automata
语言模型隐马尔可夫模型循环神经网络但是,这些模型都没有涉及到语言的本质,因为它们可以用于处理任何符号序列,而不仅限于单词、句子等。
2023-06-09 15:23:14 1326
原创 Lecture 12 Discourse
对于许多任务,考虑上下文要比考虑句子本身更重要。传统上,许多流行的 NLP 应用程序的关注点都在句子层面(例如机器翻译),但是这种情况已经开始改变……010.png。
2023-06-07 13:45:06 4269
原创 Lecture 11 Contextual Representation
我们学习了基于 ELMo 和 BERT 的单词上下文表示,以及它们在下游任务中的表现,并且也学习了如何将它们应用到下游任务中。这些模型都是在非常大的语料库上训练的。因此,它们构建了一些语言相关的知识。使用无监督目标,模型训练无需专门提供带标签数据集。由于模型是在非常大的语料库上训练的,因此,当我们将它们用于下游任务时,我们不再是从零开始(“scratch”)的状态,因为模型在某种程度上已经理解了一些单词含义相关的信息,以及单词之间的关系。
2023-06-07 09:02:31 600
原创 Lecture 10 Distributional Semantics
这里,每一行都表示语料库中的一个文档,每一列表示语料库的词汇表中的一个单词,单元格中的数字表示该单词在对应文档中出现的频率。Unsupervised: Unlabelled corpus 无监督 原始的、无标签的语料库 正如前面所述,我们的模型无需标签,只要从给定的语料库按照窗口大小对其中出现的单词进行计数,并计算概率,进行学习即可。可以看到,单词 “the” 对应的列的值都为 0,这是因为其 IDF 值为 0,所以无论对应单元格的 TF 值为多少,相乘后得到的结果都是 0。
2023-06-06 18:06:21 490
原创 Lecture 9 Lexical Semantics
在 NLP 中,我们为什么要关注词汇语义学?我们先来看一个情感分析的例子:假设现在我们有一个情感分析任务,我们需要预测一段给定文本的情感极性。Bag-of-words, KNN classifier. Training data: 词袋模型,KNN分类器。训练数据Two problems here: 这里存在两个问题Comparing words directly will not work. How to make sure we compare word meanings? 直接比较单词并不是一种很好的
2023-06-06 03:47:33 812
原创 Lecture 8 Deep Learning for NLP: Recurrent Networks
Core idea: have memory cells that preserve gradients across time. Access to the memory cells is controlled by gates. 核心思想:拥有跨时间保存梯度的记忆单元。Gated recurrent unit (GRU): Simplified variant with only 2 gates and no memory cell 门控循环单元(GRU):简化的变体,只有2个门,没有记忆单元。
2023-06-04 21:15:25 2100
原创 Lecture 7 Deep Learning for NLP: Feedforward Networks
Given a document, classify it into a predefined set of topics. E.g. economy, politics, sports 给定一个文档,将其分类到预定义的主题集合中。例如:经济,政治,体育。In feed-forward neural network language model, the first layer is the sum of input word embeddings 在前向传播神经网络语言模型中,第一层是输入词嵌入的和。
2023-06-04 18:02:55 490
原创 Lecture 6 Sequence Tagging: Hidden Markov Models
Output independence: An observed event(word) depends only on the hidden state(tag) 输出独立性:观察到的事件(词)只取决于隐藏状态(标签) ->Correct way: Consider all possible tag combinations, evaluate them, take the max. 正确的方法:考虑所有可能的标签组合,评估它们,取最大值。
2023-06-04 00:45:26 656
原创 Lecture 4 Text Classification
Input layer(features), output layer(class probabilities), and one or more hidden layers 输入层(特征),输出层(类别概率),以及一个或多个隐藏层。Classes: Topic categories E.g. “jobs”, “international news” 类别:主题类别 例如"工作",“国际新闻”Classes: entailment, contradiction, neutral 类别:蕴含,矛盾,中立。
2023-06-03 22:15:57 615
原创 高完整性系统工程(五):Alloy Example and Trace-Based Modelling(Capability-Based Access Control)
在Alloy中,你可以定义一个状态的数据类型,以及一个转换函数,描述系统从一个状态如何转换到另一个状态。:在这个例子中,Boebert的攻击是指一个低权限级别的程序能够通过将其能力写入一个低级别的内存段,并且这个能力能够被一个高权限级别的程序读取出来,这样高权限级别的程序就能够以低权限级别的程序的能力进行操作,破坏了系统的安全。:在很多系统中,我们不仅关心系统在单个时间点的状态,还关心系统状态随时间的变化,即系统的行为。状态转换是指系统从一个状态变化到另一个状态,跟踪则是指一系列的状态转换。
2023-05-31 23:46:32 236
原创 高完整性系统工程(四):Formal Verification and Validation
例如,一个状态机可以用如下的方式进行描述:S0 (Init) --Opi-> S1 --Opj-> S2 ... --Opk-> Sn,其中S0, S1, S2...Sn代表不同的状态,Opi, Opj, Opk等代表可能的操作。这是一个表达式,表示的是对于所有的密码本(pb),用户(user),地址(url),密码(pwd)和结果(res)的组合,如果满足初始状态。函数,这个函数接收五个参数:pb(密码本),user(用户),url(地址),pwd(密码)和res(结果)。例如,在以下的密码添加示例中,
2023-05-31 21:56:33 739
原创 高完整性系统工程(四): Checking Formal Specifications
【代码】高完整性系统工程(四): Checking Formal Specifications。
2023-05-31 19:40:33 738
原创 高完整性系统工程(十二):Separation Logic for Automated Verification
顺序规则(CONSEQ):(P → P’ {P’} prog {Q’} Q’ → Q) / ({P} prog {Q}),这个规则表示,如果从前置条件P可以推导出另一个前置条件P’,并且从后置条件Q’可以推导出另一个后置条件Q,那么原本的霍尔三元组的效果可以通过新的三元组来实现。在分离逻辑中,霍尔三元组{P} prog {Q}的含义是部分正确性(Partial Correctness):如果P在程序开始时成立,那么只要程序正常终止,Q就会成立,而且,程序绝对不会出错。以下是一个使用了上述规则和概念的例子。
2023-05-31 16:08:59 1309
原创 高完整性系统工程(十一):Fault Tolerant Design
例如,当P1,P2,P3分别输出24.2、24.1、24.3时,如果他们的输出在某个小距离ε内,我们就认为这两个测量值是足够相等的(sufficiently equal)。在这个过程中,更深入的理解和扩展,可以涉及到如何进行HAZOP,以及不同类型的故障(例如拜占庭故障)可能如何影响系统的工作。多数投票是一种简单的投票算法,其中的输出是投票中得到最多数的选项。在错误检测中,如果大多数的组件(例如P1和P2)提供了相同的值,那么这个值就会被视为正确的,而其他与众不同的值(例如P3)会被视为可能的错误。
2023-05-31 13:59:05 1176
原创 高完整性系统工程(十):Programming and Proving with Pointers
本章介绍霍尔逻辑和指针编程,通过Ada语言来阐述函数的传参方法。主要讲解了两种传参方式,分别是按值传递(Pass By Value)和按引用传递(Pass By Reference),同时讨论了这两种方式在比较两个对象是否相等时的不同表现。
2023-05-30 23:58:58 515
原创 高完整性系统工程(九):Invariants
其中循环结构的一般形式表示为:({P ∧B} S {P} P ∧ ¬B => Q) / ({P} while B do S done {Q}),其中P为不变式,B为循环条件,S为循环体中的语句,Q为循环结束后的条件。根据前面说的不变式的性质,我们可以知道,这个不变式通常需要涉及到循环中改变的变量和后置条件中的内容。通过这个不变式,我们可以保证在循环开始、循环中、循环结束时,程序的状态都满足我们的期望,从而证明了这个循环程序的正确性。唯一不同的是,这里的目标是找出整个程序的前置条件,而不仅仅是循环部分。
2023-05-30 22:17:37 911
原创 高完整性系统工程(八):Hoare Logic
霍尔逻辑是一种理论方法,用于证明程序的正确性,即程序的运行结果符合我们预期的功能和效果。这部分介绍了如何在霍尔逻辑中表示程序的基本元素。通过这些基本元素和结构,我们可以在霍尔逻辑中建立和证明程序的模型。这部分示例展示了一个阶乘程序FACTORIAL,输入是n,输出是f。主程序调用了。证明程序的正确性是遵循程序的结构,自顶向下。为了证明关于X的某件事,我们需要分析X的内部组件。霍尔逻辑使用霍尔三元组{P} S {Q}PSQ例如,描述的是,在执行x := x + 1之前,x的值是2。这是最强后置条件的示例。
2023-05-30 16:20:23 1796
原创 高完整性系统工程(七):Safe Language Subsets, SPARK Ada
安全编程语言指的是那些能够保证程序行为与程序员意图一致的编程语言。这涉及到程序的可预测性和可验证性。安全语言并不总是意味着程序不会崩溃,但它意味着这些语言相对于不安全的语言来说更简单。安全子集从一种语言中移除不安全的部分。它的哲学是让程序员付出更多努力,换取更简单的测试和验证过程。安全子集的程序可以使用现有的工具链进行编译和调试。程序员不需要学习新的编程语言。结果的程序更易于自动化分析和验证。
2023-05-29 22:54:01 787
原创 高完整性系统工程(六):INTRODUCING ADA
举例子来说,一个int类型的数据与一个float类型的数据相加,最终的结果是一个float类型的数据,这个过程就发生了隐式类型转换,int类型数据首先被转成float类型,然后与另一个float进行操作,这便是相相关类型之间隐式转换。的定义实际上是在私有部分进行的,这种设计可以提供良好的封装性,防止数据的误操作。类型的一个子集,范围是0到86400。Ada是一种静态、强类型的编程语言,这意味着你不能将一个类型的值直接赋给另一个类型的变量,除非这两个类型是相同的,或者已经定义了从一个类型到另一个类型的转换。
2023-05-29 21:33:25 1058
原创 高完整性系统工程(四): An Overview of Alloy
在第一章中,我们将解释如何使用 Alloy 来探索一个非常简单的软件组件的设计,即大多数操作系统中存在的众所周知的垃圾箱或回收站。目的是对如何使用 Alloy 指定和分析软件设计进行简要的(有时是肤浅的)概述。Alloy 规范语言和分析技术的全部细节将在以下章节中给出。Trash 的目标是:1. 使已删除的文件仍然可以恢复,直到执行清空 Trash 的(可撤消的)操作a. 当文件被删除时,它存储在 Trash 中;b. 仍在 Trash 中时,可以恢复文件;
2023-04-09 22:14:52 608 1
原创 自然语言处理(八):Lexical Semantics
目录1. Sentiment Analysis2. Lexical Database2.1 What is Lexical Database2.2 Definitions2.3 Meaning Through Dictionary2.4 WordNet2.5 Synsets2.6 Hypernymy Chain3. Word Similarity3.1 Word Similarity with Paths3.2 超越路径长度3.3 Abstract Nodes3.4 Concept Probability
2023-04-09 00:37:19 1969
原创 自然语言处理(七): Deep Learning for NLP: Recurrent Networks
g is multiplied component-wise with vector v, to determine how much information to keep for v 将 g 与向量 v 按分量相乘,以确定要为 v 保留多少信息。- To train RNN, we just need to create the unrolled computation graph given an input sequence 为了训练 RNN,我们只需要创建一个给定输入序列的展开计算图。
2023-04-04 20:35:51 1287
原创 自然语言处理(六): Deep Learning for NLP: Feedforward Networks
Instead of raw counts, we can weight words using TF-IDF or indicators (0 or 1 depending on presence of words) 我们可以使用 TF-IDF 或指示器(0或1取决于单词的存在)来为单词加权,而不是原始计数。- L1-norm: sum of absolute values of all parameters (W, b, etc) 所有参数(W、 b 等)的绝对值之和。Embeddings。
2023-04-03 22:49:07 1463 1
原创 自然语言处理(四): Part of Speech Tagging
Just a few open classes: 开放类与封闭类:POS类别多容易接受新词?AKA word classes, morphological classes, syntactic categories 又名词类,形态词,句法类。
2023-03-18 23:28:12 982
原创 高完整性系统工程(三): Logic Intro & Formal Specification
定义:A statement that is either true or false。
2023-03-18 17:33:37 841
原创 自然语言处理(三): Text Classification
InputOutput一些常见的例子输入可能不是一个长的文件Pros:Cons:Pros:Cons:Finds hyperplane which separates the training data with maximum marginPros:Cons:Pros:Cons: Pros:Cons:Pros:Cons:Ppros:Cons:
2023-03-12 19:20:11 548
原创 自然语言处理(一):Text Preprocessing
作为人类,我们可以将这些文件分解成各个组成部分。为了理解语言,计算机也应该这样做。总的来说,我们没有合适的规则用于句子分割,应该使用 machine learning。定义:将从文件中删除的词语清单。
2023-03-12 14:10:24 477
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人