笔记分享: 西安交通大学COMP561605自然语言理解——01. NLU导论


有关 Github \text{Github} Github仓库欢迎来 Star \text{Star} Star期末考题

0.   \textbf{0. } 0. 写在前面

1️⃣本课程总体结构

image-20241119154414877
  • 这门课由于由两位老师授课,个人感觉结构比较混乱
  • 由于时间紧任务重经费无,所以笔记还是按 PPT \text{PPT} PPT内容和以上结构展开,即使有很多不合理的地方

2️⃣考试有关事项

24950624a141b9941650b6187682aa9

1.   NLU \textbf{1. NLU} 1. NLU的概念与背景

1️⃣ NLU \text{NLU} NLU NLP \text{NLP} NLP

image-20241106213333767
  1. 自然语言理解:
    • 含义:让计算机理解人类语言的结构 + + +语义
    • 应用:信息检索 / / /情感识别 / / /机器翻译 / / /拼写检查 / / /知识图谱构建
  2. 自然语言处理:对自然语言的分析 / / /理解 / / /生成,即 NLU+NLG(Generation) \text{NLU+NLG(Generation)} NLU+NLG(Generation)

2️⃣ AI-Hard \text{AI-Hard} AI-Hard问题

  1. 含义:问题等同于 AI \text{AI} AI核心的问题,即如何让计算机具有人类智能
  2. 典型: NLU/NLP \text{NLU/NLP} NLU/NLP CV \text{CV} CV

3️⃣ NLU \text{NLU} NLU面临的挑战

  1. 计算机的特性:善于处理明确 / / /结构化 / / /无歧义的语言(如编程语言)
  2. 自然语言特性:具有复杂的上下文以及歧义性( Ambiguity \text{Ambiguity} Ambiguity)
    歧义类型含义示例
    词汇歧义词汇具有不同含义 Fuck \text{Fuck} Fuck可以是动词 / / /语气词
    句法歧义一个句子被解析成不同的结构南京市长江大桥
    语义歧义句中包含了不明确的词 John kissed his wife, and so did Sam \text{John kissed his wife, and so did Sam} John kissed his wife, and so did Sam
    回指歧义之前提到的词,在后面句子含义不同小李告诉小王生了
    语用歧义短语 / / /句子不同语境下含义不同可以站起来吗 (询问能力 or \text{or} or请求)

2.   NLU \textbf{2. NLU} 2. NLU的语法任务

2.1.   \textbf{2.1. } 2.1. 词汇层面的任务

1️⃣词干抽取( Stemming \text{Stemming} Stemming)

  1. 含义:抽取词的词干( Stem \text{Stem} Stem)与词根( root \text{root} root),比如 Niubilitiness → { 词干: Niubility 词根: Niubi \text{Niubilitiness}\to\begin{cases}\text{词干: Niubility}\\\\词根\text{: Niubi}\end{cases} Niubilitiness 词干: Niubility词根: Niubi
  2. 处理方法:
    方法含义限制
    利用形态规则机械地去处所有后缀,如 -ing/-tion \text{-ing/-tion} -ing/-tion不规则变形词不适用
    基于词典按照词典中的映射还原词性受限于词典规模
    高级方法 n-gram \text{n-gram} n-gram / / /隐马可夫 / / /机器学习受限于语料库大小

2️⃣词形还原( Lemmatization \text{Lemmatization} Lemmatization)

  1. 含义:将不同形式词汇还原为词目( Lemma \text{Lemma} Lemma),如 am, is, are, was, were→be \text{am, is, are, was, were→be} am, is, are, was, were→be
  2. 对比:词干抽取完全不考虑上下文,词形还原考虑一定的上下文
    • 示例: We are meeting in the zoom meeting → 词形还原 词干抽取 { 词干抽取: meet 词形还原: meet+meeting \text{We are meeting in the zoom meeting}\xrightarrow[词形还原]{词干抽取}\begin{cases}\text{词干抽取: meet}\\\\\text{词形还原: meet+meeting}\text{}\end{cases} We are meeting in the zoom meeting词干抽取 词形还原 词干抽取: meet词形还原: meet+meeting
  3. 处理方法:
    • 基于规则:人工给予的语言学规则,或者机器学习训练出来的规则
    • 基于词典:受限于词典,只适用于简单语言
      💡词形还原 / / /词干抽取并非 100% \text{100\%} 100%必要,比如细颗粒度情感分析就需要高精度文本(时态 / / /复数等)

3️⃣词性标注( Part-of-speech tagging \text{Part-of-speech tagging} Part-of-speech tagging)

  1. 含义:为文本中每个词标记词性(名词 / / /动词 / / /形容词)
  2. 方法:基于规则(人工),基于隐马可夫模型( HMM \text{HMM} HMM),基于机器学习( SVM / \text{SVM}/ SVM/神经网络)
  3. 挑战:分词 & \text{\&} &词义多义性

4️⃣术语抽取( Terminology extraction \text{Terminology extraction} Terminology extraction)

  1. 含义:信息抽取的子任务,识别文本中特定领域的专门术语
  2. 方法:机器学习,统计( TF/IDF \text{TF/IDF} TF/IDF),外部知识库
  3. 挑战:新术语/跨领域术语

2.2.   \textbf{2.2. } 2.2. 句法层面的任务

1️⃣句法分析( Parsing \text{Parsing} Parsing)

  1. 含义:分析文本中单词/短语之间的句法关系
    image-20241107144233277
  2. 方法:统计学(概率上下文无关文法 / / /最大化信息熵的原则),机器学习方法( RNN \text{RNN} RNN)

2️⃣断句( Sentence breaking \text{Sentence breaking} Sentence breaking)

  1. 含义:句子边界消歧(例如  .  \text{ . }  . 可表示短句 / / /缩写 / / /小数点等) + + +句子分割
  2. 方法:基于最大熵,神经网络

3️⃣分词( Word segmentation \text{Word segmentation} Word segmentation)

  1. 含义:仅对词汇间没有明显边界的语言(中文)而言,将连续字符分割为有意义单词
    image-20241107163154407
  2. 方法:基于字典(正逆向匹配),基于统计( HMM/SVM \text{HMM/SVM} HMM/SVM)
  3. 难处:未登录词 / / /切分歧义

3.   NLU \textbf{3. NLU} 3. NLU的语义任务

3.1.   \textbf{3.1. } 3.1. 文本生成/转换

1️⃣机器翻译

  1. 含义:将文本 / / /语音从一种语言翻译到另一种语言
  2. 方法:基于规则(源 / / /目标语言形态语法等),基于统计(用大型语料库构建概率模型),神经网络
  3. 难题:词句歧义 / / /对语料库大小强依赖 / / /低频词句 / / /长句子

2️⃣问答与对话

  1. 含义:实现自然语言形式的人机交互
  2. 分类:
    • 5W1H \text{5W1H} 5W1H类问题:即 Who/What/When/Where/Why & How \text{Who/What/When/Where/Why \& How} Who/What/When/Where/Why & How
    • Open/Closed-domain \text{Open/Closed-domain} Open/Closed-domain类:回答可以没有限制 or \text{or} or 专注于某一领域
  3. 方法:检索法(从库中抽取语料回答),生成法(检索 + + +推理), Pipeline \text{Pipeline} Pipeline Seq2Seq \text{Seq2Seq} Seq2Seq
  4. 难题:多知识约束 / / /多轮对话 / / /多模态 / / /可解释性…

3️⃣自动文摘

  1. 含义:为文档生成一段包含原文档要点压缩文档,例如搜索引擎结果
    image-20241107174326216
  2. 方法:对要点进行不修改的抽取,对要点概括(修改/复述)
  3. 难题:难以评估,可理解性问题,需要背景知识

3.2.   \textbf{3.2. } 3.2. 文本信息提取

1️⃣命名实体识别( NER, Named entity recognition \text{NER, Named entity recognition} NER, Named entity recognition)

  1. 命名实体:现实世界中的某个对象,如 Obama  is the  president  of  the United States \text{\textcolor{red}{Obama} is the \textcolor{red}{president} of \textcolor{red}{the United States}} Obama is the president of the United States
  2. NER \text{NER} NER:信息提取的子任务,识别文本中所有实体 + + +分配到特定类别(名字 / / /时间 / / /数量)
  3. 方法:语法规则(效果好但需要大量人工规则),统计方法(需要标注大量数据)
  4. 难题:领域依赖性(如医学实体 / / /术语),实体类型多样

2️⃣关系抽取

  1. 含义:检测文本中实体的语义关系,并将各种关系分类
  2. 方法:结合了领域知识的机器学习
  3. 难点:训练集难以构建,自然语言的歧义

3.3.   \textbf{3.3. } 3.3. 文本内容分析

1️⃣文本分类

  1. 含义:自动将文本划分到预定类中,比如垃圾邮件过滤/情感识别/黄色内容识别
  2. 方法:特征提取 → \to 训练分类器(朴素贝叶斯 / KNN/SVM /\text{KNN/}\text{SVM} /KNN/SVM)
  3. 难题:特征难提取(需要大量标注),数据非平衡问题

2️⃣情感分析

  1. 含义:识别文本中的情感状态,主观评价等
  2. 方法:情感词库( Happy/Fucking \text{Happy/Fucking} Happy/Fucking),统计方法( SVM/ \text{SVM/} SVM/潜在语义分析)
  3. 难题:修辞的多样(反语 / / /讽刺),分面观点(即将复杂事物分解为不同方面)

3️⃣主题分割

  1. 含义:将单个长文本分为多个较短的,主题一致的片段
  2. 方法:
    • 基于内容变化:同一主题内容有高度相似性 → \to 通过聚类
    • 基于边界特性:主题切换时会有边界(如过渡性 / / /总结性文本)
  3. 难点:任务目标模糊(主题多样),无关信息干扰,歧义性

3.4.   \textbf{3.4. } 3.4. 文本歧义消解

1️⃣词义消歧

  1. 含义:确定一词多义词的含义
  2. 方法:基于词典(叙词表 / / /词汇知识库),基于机器学习(小语料库的半监督学习 / / /标注后的监督学习)
  3. 难题:词义的离散型(一个词的不同含义可能完全不搭边),需要常识

2️⃣共指消解

  1. 含义:识别文本中表示同一个事物的不同代称
  2. 示例:甲队打败了乙队他们更强 → 消解后 \xrightarrow{消解后} 消解后 虽然甲队打败了乙队,但他们更强
  3. 方法:
    • 启发式:如最接近语法兼容词,即在代词前寻找最近的 + + +语法匹配的
    • 基于 ML \text{ML} ML:如 Mention-Pair Models/Mention-Ranking Models \text{Mention-Pair Models/Mention-Ranking Models} Mention-Pair Models/Mention-Ranking Models
  4. 难题:如何应用背景知识,歧义(哪哪都有它,考试的万金油解答嘿嘿)

4.   \textbf{4. } 4. 关于大模型的概述

1️⃣大规模预训练模型

  1. 含义:用自监督方式在大规模数据集上训练的深度学习模型 → \to 后续可通过微调来适应特定任务
  2. 原理:以 GPT-3 \text{GPT-3} GPT-3为例
    • 训练阶段:以“完形填空”形式训练一个序列预测器
      image-20241107181145930
    • 预测阶段:当前文本序列 → 逐个预测每个Token \xrightarrow{逐个预测每个\text{Token}} 逐个预测每个Token 生成最有可能的文本序列
      image-20241107181341800

2️⃣大模型的特点

特性描述备注
大模型模型参数达到万亿级模型性能 ∝ \propto 参数量 α ^{\alpha} α (即标度律)
大数据模型参数越多 → \to 训练所需数据也更多模型性能 ∝ \propto 数据量 α ^{\alpha} α
大算力训练对算力要求高,预测时所有参数都被激活算力需求 ∝ 2 参数规模 \propto{}2^{参数规模} 2参数规模 (即指数级)

3️⃣大模型的局限

局限含义
大模型幻觉生成错误 / / /不存在的信息,比如说埃菲尔铁塔在德国(其实也没错)
生成 404 \text{404} 404内容 TG \text{TG} TG不太喜欢的,你懂
理解不了多模态例如很多时候同时输入文本 + \text{+} +图片, GPT \text{GPT} GPT往往会忽略图片内容
推理能力差无法进行逻辑 / / /尝试 / / /数值推理,但是好像 GPT-o1 \textit{GPT-o1} GPT-o1解决了这一问题
难以个性化对特定场景 / / /需求 / / /认知水平的处理欠佳,或许可以通过参数调控( ? \text{?} ?)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值