自然语言处理学习笔记-day1

最新推荐文章于 2024-04-22 17:29:50 发布

Fred3D

最新推荐文章于 2024-04-22 17:29:50 发布

阅读量213

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qq_40125653/article/details/104259001

版权

自然语言处理专栏收录该内容

0 篇文章 0 订阅

订阅专栏

文章目录

1.前言

数字、文字和自然语言一样，都是信息的载体，它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的 ——记录和传播信息。

2.自然语言处理 – 从规则到统计

自然语言处理的早期是基于规则的处理方式。用有限的、严格的规则来描述无限的语言现象。20世纪80年代以前，自然语言处理工作中的文法规则都是人工写的，自然语言的语法规则集合非常复杂，也很难用计算机来解析。
转移到基于统计的处理方式。只有详尽的历史语料才能带来靠谱的结论。 1970年以后统计语言学的出现，自然语言处理的研究由单纯的句法分析和语义理解，变成了非常贴近实际应用的机器翻译，语音识别，文本到数据库自动生成数据挖掘和知识的获取。这一时期诞生了贝叶斯方法（Bayesian Method）、隐马尔可夫、最大熵、Viterbi算法、支持向量机之类。世界上第一个联机语料库也是在那个时候的Brown University诞生的。语料库对统计自然语言处理的作用非常大，于是统计自然语言处理发展开来。现在已经普遍采用了基于统计的自然语言处理方法。

3.统计语言模型

自然语言从它产生开始，逐渐演变成一种上下文相关的信息表达和传递方式，如果让计算机处理自然语言，一个基本问题就是为自然语言这种上下文相关的特性建立数学模型，这种模型就是 统计语言模型

4.谈谈分词

利用统计语言模型进行自然语言处理，这些语言模型是建立在词的基础上的，词是表达语义的最小单位，对于西方拼音语言来讲，词之间有明确的分解符，而对于中文而讲，词之间没有明确的分界符号，因此要先对句子进行分词，才能做进一步的自然语言处理。
分词方法：
- 查字典的方法分词：把一个句子从左到右扫描一遍，遇到字典里有的词就标记出来，遇到复合词就找最长的词匹配，遇到不认识的字串就分割成单字词。
- 利用统计语言模型分词：

5.隐含马尔可夫模型

马尔可夫假设：马尔可夫为了简化问题，提出了一种简化的假设，随机过程中的各个状态St的概率分布，只与它的前一个状态 S_t-1 有关，比如，对于天气预报来说，硬性假设今天的气温只和昨天的有关而与前天无关。符合这个假设的过程则称为马尔可夫过程，也成为马尔可夫链。
独立输出假设：每个时刻t会输出一个符号O_t，而且O_t跟S_t相关且仅和S_t相关
隐含马尔可夫模型，是马尔科夫链的一个扩展：随机变量的时间序列（S₁、S₂、S₃）符合马尔科夫假设，同时隐含了一个状态，就是每个时刻t，S_t会输出一个符号O_t,而且O_t和S_t相关且仅和S_t相关（独立输出假设，一个很容易想象的现实场景就是语音输出的识别）。
隐含马尔可夫模型是一个并不复杂的数学模型，目前为止一直被认为是解决大多数自然语言处理问题最快速、有效的方法。
应用：隐含马尔可夫模型最早的成功应用是语音识别。后续陆续成功的应用于机器翻译，拼写纠错，手写体识别，图像处理，基因序列分析，还广泛应用于股票预测和投资。
有监督的训练的前提是需要大量的人工标注的数据，很多时候无法标注训练模型的数据，或者是标注的成本非常的高，因此，训练隐含马尔可夫模型的更实用的方法是通过大量观测到的信号O₁,O₂,推算出模型的参数，这种方法称为**无监督的训练方法。**两个不同的隐含马尔可夫模型可以产生同样的输出信号。仅仅通过观测到的输出信号来倒推产生它的隐含马尔可夫模型，可能得到很多个合适的模型。

Fred3D

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理学习笔记-day1

文章目录1.前言2.自然语言处理 -- 从规则到统计3.统计语言模型4.谈谈分词5.隐含马尔可夫模型1.前言数字、文字和自然语言一样，都是信息的载体，它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的 ——记录和传播信息。2.自然语言处理 – 从规则到统计自然语言处理的早期是基于规则的处理方式。用有限的、严格的规则来描述无限的语言现象。20世纪80年代以前，自然语言处理...
复制链接

扫一扫

专栏目录