自然语言处理学习笔记-day1

1.前言
  • 数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的 ——记录和传播信息。
2.自然语言处理 – 从规则到统计
  • 自然语言处理的早期是基于规则的处理方式。 用有限的、严格的规则来描述无限的语言现象。20世纪80年代以前,自然语言处理工作中的文法规则都是人工写的,自然语言的语法规则集合非常复杂,也很难用计算机来解析。
  • 转移到基于统计的处理方式。只有详尽的历史语料才能带来靠谱的结论。 1970年以后统计语言学的出现,自然语言处理的研究由单纯的句法分析和语义理解,变成了非常贴近实际应用的机器翻译,语音识别,文本到数据库自动生成数据挖掘和知识的获取。这一时期诞生了贝叶斯方法(Bayesian Method)、隐马尔可夫、最大熵、Viterbi算法、支持向量机之类。世界上第一个联机语料库也是在那个时候的Brown University诞生的。语料库对统计自然语言处理的作用非常大,于是统计自然语言处理发展开来。现在已经普遍采用了基于统计的自然语言处理方法。
3.统计语言模型
  • 自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递方式,如果让计算机处理自然语言,一个基本问题就是为自然语言这种上下文相关的特性建立数学模型,这种模型就是 统计语言模型
4.谈谈分词
  • 利用统计语言模型进行自然语言处理,这些语言模型是建立在词的基础上的,词是表达语义的最小单位,对于西方拼音语言来讲,词之间有明确的分解符,而对于中文而讲,词之间没有明确的分界符号,因此要先对句子进行分词,才能做进一步的自然语言处理。
  • 分词方法:
    • 查字典的方法分词:把一个句子从左到右扫描一遍,遇到字典里有的词就标记出来,遇到复合词就找最长的词匹配,遇到不认识的字串就分割成单字词。
    • 利用统计语言模型分词
5.隐含马尔可夫模型
  • 马尔可夫假设:马尔可夫为了简化问题,提出了一种简化的假设,随机过程中的各个状态St的概率分布,只与它的前一个状态 St-1 有关,比如,对于天气预报来说,硬性假设今天的气温只和昨天的有关而与前天无关。符合这个假设的过程则称为马尔可夫过程,也成为马尔可夫链

  • 独立输出假设:每个时刻t会输出一个符号Ot,而且Ot跟St相关且仅和St相关

  • 隐含马尔可夫模型,是马尔科夫链的一个扩展:随机变量的时间序列(S1、S2、S3)符合马尔科夫假设,同时隐含了一个状态,就是每个时刻t,St会输出一个符号Ot,而且Ot和St相关且仅和St相关(独立输出假设,一个很容易想象的现实场景就是语音输出的识别)。

  • 隐含马尔可夫模型是一个并不复杂的数学模型,目前为止一直被认为是解决大多数自然语言处理问题最快速、有效的方法。

  • 应用:隐含马尔可夫模型最早的成功应用是语音识别。后续陆续成功的应用于机器翻译,拼写纠错,手写体识别,图像处理,基因序列分析,还广泛应用于股票预测和投资。

  • 有监督的训练的前提是需要大量的人工标注的数据,很多时候无法标注训练模型的数据,或者是标注的成本非常的高,因此,训练隐含马尔可夫模型的更实用的方法是通过大量观测到的信号O1,O2,推算出模型的参数,这种方法称为**无监督的训练方法。**两个不同的隐含马尔可夫模型可以产生同样的输出信号。仅仅通过观测到的输出信号来倒推产生它的隐含马尔可夫模型,可能得到很多个合适的模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值