NLP②语言学介绍

Introduction介绍了语言和概念的发展如何促进了知识的抽象和共享。通过语言,人类能够将抽象的概念进行表达和传播,从个体到小群体之间进行共享。计数的发展是一个重要的例子,此外还有农业和导航等应用。这些发展不仅促进了抽象思维的进步,也推动了修辞学和法律等领域的发展,使得群体思考和规划成为可能,并实现了知识的指数级传播。

Analysis Rules 分析规则

含义:联合国官员埃克乌斯前往巴格达

  1. 词语(words)    句子的基本单位  
  2. 词性 (Parts of Speech)  词性是指单词在句子中的语法类别,反映了单词在句子中的功能和作用。词性标注(POS tagging)是将句子中的每个单词标记为特定的词性标签。

例如:NNP - Proper Noun, Singular单数的专有名词

VBZ - Verb, 3rd Person Singular Present第三人称单数现在时的动词

NN - Noun, Singular or Mass 表示单数或不可数名词

介词(Preposition, IN):in

更多的google一下就能搜到具体含义

  1. 句法块(Syntactic Chunks)  句法块是指文本中具有独立语法意义的短语单元,如名词短语(NP)、动词短语(VP)、介词短语(PP)等。每个句法块由一个或多个词组成,这些词在语法上紧密相关。
  1. :Begin,表示一个新的句法块的开始。
  1. :Inside,表示在一个已经开始的句法块内部。

O-:Outside,表示不属于任何句法块的词。

  1. 命名实体(Named Entities) 文本中代表特定实体的词或短语,这些实体通常包括人名(PER)、地名(LOC)、组织名称(ORG)、日期、时间、货币金额等
  2. 句法依赖关系(Syntactic Dependencies)

句法依赖关系是指句子中词语之间的语法关系,通常表示为一个依赖树结构。在依赖树中,每个词作为一个节点,边表示词语之间的依赖关系,如主语-动词、动词-宾语等

主谓(状语修饰)宾  Subject Predicate(Adverbial) Object

I(S) clean(P) room(O) quickly(A)

所以图中最右边一列

3:表示第三个单词。

4:表示第四个单词。

0:表示根节点,通常是谓语动词或句子的主要动词。

6:表示第六个单词。

SUBJ:主语依赖关系。

·4 (heads) 作为根节点(动词),其主语是 3 (Ekeus)。

·箭头表示:3(4) → 4(0),即 Ekeus 是 heads 的主语。这里前面数字表示词语的序号(第一列),后面口号数字表示依赖关系(例如序号3的依赖于序号4)

OBL:状语依赖关系。

·6 (Baghdad) 是 4 (heads) 的状语。

·箭头表示:6(4) → 4(0),即 Baghdad 是 heads 的状语。

这条规则表示,当遇到一个序列:NNP, NN, NNP, [VBZ] 时,将其标注为一个句法块(Chunk)

具体地说,序列中的前面三个单词(NNP, NN, NNP)(U.N. official Ekeus联合国官员埃克乌斯)将被标注为一个名词短语(NP),其中第一个单词是名词短语的开始(B-NP),后两个单词是名词短语的内部(I-NP)

又例如:美国总统特朗普

Surface Statistical Models: Distributional Semantics

分布语义模型

Distributional Semantics: a word gets its meaning from words that often appear around it 

Firth在1957年提出了这一观点:“你将通过它所处的环境来了解一个词”。这种方法通过统计分析词语的上下文关系,来理解词语的意义和用法。这在自然语言处理中特别有用,因为它可以帮助计算机通过上下文信息来解析和生成语言。

通过分析大量数据,可以学习到特定句法块(如名词短语、介词短语等)出现的概率,并利用这些概率进行句法解析。即从数据中学习p,最大化联合概率。与基于规则的方法相比,统计方法更加灵活,可以处理更多变的语言现象,但也需要大量的训练数据。这也是当今AI领域面临的巨大问题,数据需求大,从而导致一系列资源消耗大,例如硬件设备。

虽然规则方法在某些方面非常有效,但它们也有局限性,特别是在处理复杂和多变的语言现象时。这就需要结合其他方法,如统计方法和深度学习,以提高自然语言处理的效果和适用范围。

Implicit Analysis using DNNs

Suppose you don’t need to use B-NP, B-PP, NNP, IN, VBZ, I-PER, B-LOC etc, etc for down-stream tasks.All you really need is a function from a list of words onto a list (e.g. ) of syntactic dependencies.

也就是说如果能自动学习到语言中的复杂模式和关系,就不需要用到前面那些显式定义的规则或标签,这种方法可以大大提高自然语言处理的效果,因为它能够处理更复杂的语言现象,并在许多下游任务中表现出色。

DNN可以做到这一点!

神经网络,特别是递归神经网络(RNN),在学习和近似复杂函数方面有很强的能力。RNN可以捕捉语言的上下文信息,生成有意义的语义特征。深度神经网络被认为是通用逼近器,能够学习和近似各种复杂的功能程序。尽管学习机制可能有局限性,但这种方法在许多自然语言处理任务中表现出色。

What does Linguistics give us?

  1. Tools for describing and empirically describing languages.
  2. These tools are useful for analysis of both human and AI produced languages and language-using processes.

语言学提供的工具,这些工具可以用来描述和分析语言。无论是人类语言还是AI生成的语言,这些工具在语言分析中都非常有用。例如,语音学、语法学、语义学等都是语言学的重要工具,通过这些工具,可以更好地理解和处理语言。

当今大语言模型的问题:

  1. Errors in reasoning
  2. Poor numeracy
  3. Poor precision
  4. Failures of alignment with human concepts

尽管神经网络在语言处理方面取得了巨大进展,但它们并没有完全反映语言学模型的结构。语言学模型提供了理解语言如何作为思维输入、思维机制、思想结构和交流手段的理论基础。进一步研究如何将这些语言学模型融入神经网络可能会提高语言处理的效果。

即:

as an input to thought and other mental processes,

as a mechanism used in thought,

as a way to structure and store thoughts,

as a means of communications

Linguistic ideas to guide us to general NLP/CL

1.组成性/因子化(Compositionality / Factorisation)

解释:组成性指的是语言的意义可以通过组合其组成部分的意义来构建。例如,句子的整体意义可以通过各个单词的意义及其组合方式来确定。因子化则涉及将复杂的语言现象分解成更简单的组成部分进行分析。

应用:在NLP中,理解复杂句子结构并生成符合语法规则的句子。

2.系统性泛化(Systematic Generalisation)

解释:系统性泛化是指语言系统能够从有限的样本中推导出一般性规则,并应用于新的情况。例如,从少量的句子中学习语法规则,并能够生成和理解新句子。

应用:在机器学习中,通过训练模型使其能够从训练数据中泛化,处理未见过的数据。

3.符号的稳定意义(Stable Meanings for Symbols)

解释:符号的稳定意义指的是语言中的符号(如单词)在不同上下文中保持一致的基本意义。这种稳定性有助于语言理解和交流。

应用:在词向量和嵌入模型中保持单词的语义一致性。

4.操纵引用(Manipulating References)

解释:操纵引用是指语言中的引用和指代关系,例如代词指代的对象。这对于理解句子中的关系和上下文非常重要。例如Mary went to the library. She borrowed a book里的she指的是谁

应用:在自然语言生成和理解任务中正确处理代词和指代关系。

5.类比和隐喻(Analogy and Metaphor)

解释:类比和隐喻是语言中常见的修辞手法,通过将一个概念比作另一个概念来传递意义。这种手法丰富了语言的表达能力。

应用:在自然语言生成中使用类比和隐喻来生成更自然和富有表现力的文本

当然研究古老语言,比如苏美尔语,可以帮助我们理解语言的演变和发展。这种方法也可以应用于现代语言和人工智能生成的语言,帮助我们更好地分析和理解语言结构。

Hallucinations

使用chatGPT 找论文时经常遇到的“假论文”就是因为幻觉Hallucinations问题。

由于结构和训练选择,神经语言模型只能学习固定深度的函数链(固定神经网络层数,局部最优,表达能力有限无法学习复杂数据),这限制了它们在处理某些自然语言现象时的能力。或者说这些AI系统在处理文本时,基于统计方式(处理文本的形式结构,而非语义)表现出色,但他们没有真正理解文本。尽管它们可以计算某些特征,但在处理递归生产力等复杂语言现象时存在挑战。

具体来说:

预测下一个词:语言模型的基本工作原理是预测下一个词来生成文本。这种机制意味着模型在生成内容时更多依赖于统计上的合理性,而非真实性。如果训练数据中出现过某些组合,模型可能会认为它们是合理的,即使实际情况并非如此。

上下文理解的局限:模型有时无法充分理解或保留上下文,特别是在长文本或复杂上下文中,这可能导致它生成与之前内容不一致的信息。

组成性原则(Principle of Compositionality)句子的意义可以通过其组成部分的意义和这些部分的组合方式来确定。这意味着我们可以通过已知的语言结构片段来解释新的句子,包括更长的句子。

系统性泛化(Systematic Generalization)如果一个人或模型可以解释主语位置的名词短语,那么它也应该能够解释宾语位置的名词短语。

How is meaning assembled?

如何组合所有词的意思,形成完整对话?

传统的意义组合方法。解析是识别句子的句法结构的过程,通过递归定义的名词短语(NP)和动词短语(VP),给句子的每个成分分配意义。这种方法在理解和生成语言方面非常有效,因为它能够捕捉语言的结构和语义关系。

Code switching/mixing

在同一个句子中使用不同语言的成分。例如,句子“The 黄金 奇异果 has been sliced.”中,中文和英文的词语混合使用。这种现象在多语言环境中很常见,通过分析代码切换和混合,可以更好地理解语言的交互和变化。

Constructing meaning

主要步骤

①词汇查找(Lexical Lookup):

找出每个单词的基本词义。

例如,"golden" 的词义为 golden(x),"kiwifruit" 的词义为 kiwifruit(x)。

②沿树结构的规则应用(Rule Application up the Tree):

根据语法规则,将词汇组合成更大的语义单位。

例如,"golden kiwifruit" 的词义可以组合成 λx(kiwifruit(x) ∧ golden(x))。

研究表明,人类大脑在无意识的情况下处理句法结构,支持了层次化、自下而上的处理模式

例子:Shehnai 的基本含义

  • ·如果你见过或拿过 shehnai,你会有一个经典的、基础的理解。

例如,见到图片可以帮助你理解其外观。

  • ·如果你听过 shehnai 演奏,你对这个词的理解会更丰富。

  • ·间接理解:

即使你从未见过、摸过或听过 shehnai,如果有人告诉你它是一种传统的印度乐器,类似于双簧管,那么你对这个词也会有一些理解。

例如,它与印度、簧管乐器、使用簧片、演奏音乐相关。

  • ·详细描述增加的理解:

如果有人补充说它有点像竖笛,但有多个簧片,喇叭口更像双簧管,那么你会有更多的网络连接或“意义”。

这种详细的描述帮助你在脑海中建立更丰富的概念网络。

  • ·上下文影响:

如果你只有一个或多个单词使用的上下文,你对这个词的理解会怎样?

文学引用:

示例句子:“From a week before, shehnai players sat in bamboo machans at the entrance to the house, playing their pipes. Bikash Babu disliked the shehnai’s wail, but was determined to fulfil every conventional expectation the groom’s family might have.”

出自 Anuradha Roy 的《An Atlas of Impossible Longing》(纽约:Free Press,2011年)。

  • ·上下文中的理解:

从某种意义上说,我对单词 "shehnai" 的理解更接近于一个没有见过这个乐器但读过其描述的人。

我仍然知道它是一种类似于管乐器的乐器。

  • ·超越基础理解:

我对 "shehnai" 的理解不仅仅是一个见过这个乐器的人所拥有的意义。

我知道一些额外的音乐和文化联系,而这些联系是仅仅见过乐器的人所缺乏的。

单词的意义不仅依赖于直接的感官体验(如看到或听到),还可以通过上下文和描述来丰富。通过不同的描述和上下文,人们可以建立更复杂和丰富的语义网络,即使他们没有直接体验到这些对象。这在自然语言处理中同样适用,模型需要能够处理和理解多种来源的语义信息,以生成和理解更丰富的文本内容。

图片源于COMPSCI 769 UOA

  • 17
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值