NLP①概论

丹尼尔·卡尼曼的著作《思考,快与慢》中的两个主要思考系统:系统I和系统II。系统I是快速、直觉的思考方式,适用于处理日常事务和简单决策。系统II是慢速、理性的思考方式,用于复杂决策和问题解决。

系统II的慢速思考则是人类相对于其他动物的一种超级能力。计算机在快速思考方面表现不佳,但可以通过高功率、低密度的硬件模拟实现慢速思考。引用塞缪尔·约翰逊的话,说明动物的推理能力虽然不如人类,但仍然令人惊讶。

在人工智能领域,递归深度学习和transformer模型是实现复杂推理的关键技术,正是这些技术使得现代AI系统能够在处理自然语言和其他复杂任务时表现出色。

人类通过感官数据和试错法从数据中学习的过程。人类通常是一次处理一个问题,通过感官获取数据,并通过试错法来改进解决方案。然而,这种学习方式的益处通常只能间接共享,主要是个体的学习经验,很难迅速传递给他人

通过语言,人类能够将抽象的概念进行表达和传播,从个体到小群体之间进行共享。计数的发展是一个重要的例子,此外还有农业和导航等应用。这些发展不仅促进了抽象思维的进步,也推动了修辞学和法律等领域的发展,使得群体思考和规划成为可能,并实现了知识的指数级传播。

书写系统的发展如何使得知识得以保存和传承。苏美尔楔形文字和商朝甲骨文是早期书写系统的例子,它们使得知识可以被记录并在几代人之间保持不变。这种持久性的知识积累为人类思考增加了物理技术,但也面临着难以适应新情况的挑战。

书写系统可以看作是第一种非本地网络技术,允许知识在不同地方和几代人之间传递和积累。然而,这种持久性也带来了难以适应新情况的挑战。

人工智能的思想根源,可以追溯到亚里士多德的《工具论》。形式化推理是通过可靠的技术将旧知识组合成新知识的过程。这种方法在哲学、判例法、数学、会计、科学方法和逻辑中得到了广泛应用,成为许多专业领域的基础。然而,形式化推理在实践中仍然具有很大的挑战性。

NLP

Computational Linguistics allows computers to manipulate communicated and stored thoughts, extending what can be done with them

What is Computational Linguistics?

计算语言学的具体内容包括但不限于:

  • 语音处理:包括语音识别和语音合成。
  • 句法分析:包括词性标注、句子解析和结构分析。
  • 语义分析:理解词语和句子的含义。
  • 语用分析:理解语言在不同上下文中的使用方式。

通过这些技术,计算语言学使得自然语言处理(NLP)系统能够有效地处理大量的文本和语音数据,从而实现信息提取、翻译、问答系统、对话系统等多种应用。计算语言学的研究和发展不仅推动了AI技术的进步,还广泛应用于各行各业,提高了生产力和服务质量

从计算的角度看语言是什么?

Strings and languages

  • A string of length n over an alphabet Σ is an ordered n-tuple of elements of Σ.
  • Σ denotes the set of all strings over Σ of finite length.
  • Given an alphabet Σ any subset of Σ is a formal language over alphabet Σ.

字符串(String):在计算语言学中,字符串是指由某个字母表(Σ)中的元素按特定顺序排列而成的一系列字符。例如,字母表Σ可以是英文字母表 {a, b, c, ... , z},那么字符串可以是 "hello", "world" 等。

形式语言就是字母表Σ中的字符组成 在自定义或者特定规则 下的一组特定的字符串

例如,如果我们定义一个形式语言只包含所有以 "a" 开头的字符串,那么对于Σ = {a, b},这个语言的字符串可能包括 "a", "aa", "ab", "aaa" 等。

} Languages as subsets of strings that can be characterised by some function defining set inclusion

} Recognising that a string is part of a language

} Generating strings that are part of a language

} Explaining why a string is part of a language / providing a proof of recognition

诗歌等高表达性(浓缩),但是精度和可用性差,相反逻辑符号等表达性差但是易于使用,精度高

Teleologically: scientific approaches to achieving reliable language technologies. 目的论方法是指以目标为导向的科学方法

Empirically: scientific approaches to exploring the interactions between languages and intelligences, including composite and artificial ones.强调通过观察和实验,理解和改进语言技术在实际应用中的表现。

图片来源于
COMPSCI 769 UOA

  • 18
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值