自然语言处理笔记week1

最新推荐文章于 2024-09-25 22:01:50 发布

Max_Uer

最新推荐文章于 2024-09-25 22:01:50 发布

阅读量1.5k

点赞数 54

分类专栏：自然语言处理课程笔记文章标签：自然语言处理笔记人工智能

本文链接：https://blog.csdn.net/Max_Uer/article/details/139896658

版权

自然语言处理课程笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

week1课程内容

week1课程内容

一、自然语言处理概述与课程介绍

1.NLP基础技术

（1）词法分析：词性标注与词义标注
（2）句法分析：判断句子的句法结构和成分，明确各成分的相互关系，包括：完全句法分析、浅层句法分析
（3）语义分析：根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句子意义的某种形式化表示
（4）语用分析：人对语言的具体运用，是对自然语言的深层理解
（5）篇章分析：对段落和整篇文章进行理解和分析

2.NLP应用技术

机器翻译，信息检索，情感分析，信息抽取等等

3.语言模型

（1）预训练语言模型：BERT，GPT-3
（2）大语言模型（LLM）

二、Regular Expression（正则表达式）

1.理解：

正则表达式，就是用一串字符串去描述一组（一类）字符串。比如，找一个字符串，去表示the、The、THE。

2.regular expression的一些写法：

（1）disjunctions（析取）：
析取符: [ ] ，表示括号里多选一，例如：[wW]ood 匹配 wood 和 Wood.
另一个表析取的管道符：| ，例如 a|b 表示 [ab]
（2）范围表示：
[A-Z] 表示任意大写字母，[0-9] 表示任意数字
（3）negation（否定）：
[^Ss] 匹配既不是 S 也不是 s 的单词
[^A-Z]匹配非大写字母
[e^]匹配 e 或者 ^，注意 ^ 写前面表否定
（4）? : 表示前一个字符可有可无，例如 colou?r
（5）* ：表示前一个字符有零个或更多，例如 oo*h!
（6）+：表示前一个字符有一个或更多，例如 o+h!
（7）. ：表示任意字母，如 beg.n 代表begin,began,begun
（8）anchors锚点
用于锚定一句话中符合条件的单词：
^[A-Z] 表示一句话中以大写字母开头的单词，例如 Who are you?
\.$ 表示以 . 结尾，例如 The end.

而 .$ 表示以任意字符结尾，因为上面讲过 . 代表任意字符

（9）写一个正则表达式找出所有单词the：
[^a-zA-Z][tT]he[^a-zA-Z]

3.准确率与召回率：

（1）两类错误：
False positives：不该匹配的匹配了
False negatives：该匹配的没匹配
（2）precision（准确率）：减少false positive
recall（召回率）：减少false negative

三、Finite State Automata（有限状态自动机FSA）

1.sheep FSA：

羊的叫声，正则表达式： baa+!
FSA图：
在这里插入图片描述

FSA图也可以是：
在这里插入图片描述

因此一个正则表达式可对应多个FSA

2.有限状态自动机定义：

（1）The set of states (状态集): Q
（2）A finite alphabet (有限字母表): Σ
（3）A start state (初始状态)
（4）A set of accept/final states (终极状态)
（5）A transition function (转移函数) that maps QxΣ to Q

3.示例：dollars and cents

在这里插入图片描述

4.状态转移表state-transition table

在这里插入图片描述

5.Recognition识别

（1）步骤：
• Simply a process of starting in the start state
• Examining the current input
• Consulting the table
• Going to a new state and updating the tape pointer.
• Until you run out of tape
该步骤是通用的，针对不同问题只需要更换状态转移表即可
（2）确定性FSA与非确定性FSA（non-determinism）
在这里插入图片描述

非确定性FSA可以转换为确定性FSA

6.ND Recognition的例子

在这里插入图片描述

四、Word Segmentation（分词）

1.一些概念：

（1）lemma（词元）：相同词干，相同词性，近似词义。如cat与cats
（2）wordform（词形）：cat与cats是不同词形
（3）type（词型）：vocabulary的一个元素
（4）token（词例）：一个type出现的次数
例如下面一句话：they lay back on the San Francisco grass and looked at the stars and their
这句话有15 tokens，13 types。
N = number of tokens， V = vocabulary = set of types，|V| = size of vocabulary