NLP——李宏毅课程笔记

深度不学习@

已于 2023-03-14 20:51:46 修改

阅读量720

点赞数 1

文章标签：语音识别人工智能自然语言处理

于 2023-03-06 22:55:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Nontele/article/details/129371394

版权

课程主页：Hung-yi Lee (ntu.edu.tw)

任务类型：

1、Speech Recognition

2、Text-to-Speech Synthesis

3、Speech Separation

4、Speaker Recognition

5、多种任务类型情况（NLP Tasks）：

1、语音识别（Speech Recognition）

token

token是在模型输出时选择的如何处理文本或语言的最小单位

1、Phoneme：

发音的基本单位，和语音关系较大（eg音标，需要语音学家进行提取和转换）

之后将Phoneme再转成对应的文字（eg ）

2、Grapheme：

书写的基本单位，比较容易

英文：26个英文字母+空格+标点符号

中文：大约4000个字

3、Word token：

对于某些语言来说，其词汇数量巨大，且没有空格区分

4、Morpheme：

最小的意思单元，长度小于word，大于grapheme。由语言学家提取or统计大量重复出现部分

5、Bytes：

输出编码，例如 UTF-8

声学特征（Acoustic Feature）：

1、帧向量

分帧：

每25ms作为一帧（frame），要是频率为16KHz的话，有400个采样点，即400维的向量。

转换：

使用滤波器（filter bank）转换为80维，使用MFCC转换为39维。

加窗：

右移10ms，获得下一个窗口，抽出下一帧，即1s声音讯号可以获得100帧，即100个400/39/80维的向量。

声波经过离散傅立叶变换得到声谱图经过滤波器组取对数经过离散余弦变换获得 Mel频率倒谱系数。

不同音频处理方式在论文中的使用占比：

重要论文（seq-seq）

• Listen, Attend, and Spell (LAS)

• Connectionist Temporal Classification (CTC)

• RNN Transducer (RNN-T)

• Neural Transducer

• Monotonic Chunkwise Attention (MoChA)

Hidden Markov Model(HMM)：

概念：输入通过一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由一个状态生成一个观测，从而产生观测随机序列的过程，在这个过程中，需要一个状态转移概率矩阵A，一个观测概率矩阵B，一个初始状态概率向量α。

States s：比phoneme还小的发音单位

将根据sequence Y产生X的概率计算转化为根据States产生X的概率

Transition Probability：从一个state转到另一个state的概率

Emission Probability：给一个state，产生vector的概率

Subspace GMM：所有的state共用同一个GMM

5、NLP Tasks

前处理方法：

1、Part-of-Speech (POS) Tagging

用词性注释句子中的每个单词（例如动词、形容词、名词）

2、Word Segmentation

分割单词

3、Parsing

4、Coreference Resolution（指代消除）

输入一段文本，让模型判断文中意思相同的内容

5、Summarization

Extractive summarization

输入一些句子，让model选择其中的一些作为摘要

Abstractive summarization

输入一段文本，让model自己概括一段简短的文字作为摘要

具体应用：

1、Machine Translation

翻译任务

2、Grammar Error Correction

文法识别

3、Sentiment Classification

情感判断/正向负向判断

4、Stance Detection

输入文本，从Support, Denying, Querying, Commenting (SDQC)四类中给出判断

5、Veracity Prediction

文本内容真实性判断

6、Natural Language Inference (NLI)

通过输入的premise，推断hypothesis

7、Search Engine

搜索引擎

8、Question Answering (QA)

问答机器人

传统问答系统：

基于深度学习的问答系统：

简洁版：（Extractive QA）将概括后的答案作为回答输入，而不是在大量文本中自己识别有用的回答

9、Chattin

聊天机器人

10、Task-oriented

任务导向的对话机器人

分模块实现：

Natural Language Understanding(NLU) --> State Tracker --> Policy --> Natural Language Generation (NLG)

State Tracker：摘要，将不重要的内容过滤掉，只保留重要信息得到一个State

Policy：根据输入的State来决定action

11、Knowledge Graph

Model读入文本后，理解出Entity之间的Graph，简单理解的话，可以分为下面两步

1、Name Entity Recognition (NER)：抽取出entity

2、Relation Extraction：得到entity的graph

6、Non-Autoregressive Sequence Generation

传统自回归模型会有多个stage，通过上一个timestep输入生成下一步隐向量。实现的模型主要为RNN，transformer的Decoder。这样的模型存在的问题是速度很慢。非自回归模型则是直接生成输出。但是这样有两个问题：1、output没有相互依赖的structure。2、没有latent variable。

在input有多种output情况中的multi-modality problem

在图像生成中，可以通过添加GAN学习整体输入的structure dependen解决，但由于文本是离散结构，用GAN没有较好的效果。

Vanilla NAT(Non-Autoregressive Translation):

翻译任务中第一篇使用非自回归的model

Fertility

添加一个额外的aligner，给出两种语言中词汇的映射。

Sequence-level knowledge distillation

设计一个teacher-student net，Teacher: Autoregressive model, Student: Non-autoregressive model

teacher net 负责对输入进行筛选，

7、Bert

Contextualized Word Embedding:

让模型看到一段文本后再给出每个token的embedding

让模型变小的技术：

        • Network Pruning 网络剪枝
        • Knowledge Distillation 知识蒸馏
        • Parameter Quantization 参数量化
        • Architecture Design 结构设计

Fine tune

How to Pre-train

深度不学习@

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
NLP——李宏毅课程笔记

本内容是基于李宏毅老师在2020年1发布的自然语言处理课程的学习笔记
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。