新手探索NLP(十五)——终章

目录中文语音的机器处理汉语语言学的研究未登录词识别概率图模型信息熵互信息联合熵条件熵统计语言模型隐马尔科夫模型Viterbi算法最大熵模型最大熵原理GIS实现条件随机场模型概念:线性链条件随机场不同模型的比较与总结词性、语块和命名实体识别词性语块命名实体识别句法理论和自动分析理论基础句法分析...
摘要由CSDN通过智能技术生成

目录

 

中文语音的机器处理

汉语语言学的研究

未登录词识别

概率图模型

信息熵

互信息

联合熵

条件熵

统计语言模型

隐马尔科夫模型

Viterbi算法

最大熵模型

最大熵原理

GIS实现

条件随机场模型

概念:

线性链条件随机场

不同模型的比较与总结

词性、语块和命名实体识别

词性

语块

命名实体识别

句法理论和自动分析

理论基础

句法分析

PCFG短语结构

NLP中的深度学习

LSMT

信息的筛选

新信息的存放

更新状态

输出

损失函数


中文语音的机器处理

交集型切分歧义:汉字串AJB满足AJ、JB同时为词,此时J称为交集串。

组合型切分歧义:汉字串AB满足A、B、AB同时为词。

规律:一个词汇的出现于其上下文环境中出现的词汇序列存在紧密的关系。

文本中第n个词的出现于其前后n-m到n+m个词有高度相关性,我们把[-m,m]称为窗口范围。

 

汉语语言学的研究

未登录词识别

大约九成是专有名词,其余为通用新词和专业术语。

在NLP研究中,通常将专有名词和数字、日期等称为命名实体。

 

概率图模型

信息熵

对平均不确定性的度量。约定0log(1/0) = 0。一般而言,log以2为底,熵的单位是比特。

  • H(X)>=0
  • H(X)<=log|X|,当且仅当X的所有取值x有P(X=x) = 1/|X|等号成立。

互信息

联合熵

借助联合概率分布对熵的自然推广。

条件熵

利用条件概率分布对熵的延伸。

两个随机变量相互独立 <=> 两者互信息为0.

两种模型的区别和联系

统计语言模型

计算句子中某种语言模式出现概率的统计模型。

实际应用中一般取用n=3的三元模型。

隐马尔科夫模型

缺点:随着矩阵的增大,计算量将急剧增大。

Viterbi算法

最大熵模型

一个单独的词可以用k种词性,所有词性出现的概率总和需为1。按照最大熵原理,在没有任何约束条件的情况下,尽可能将概率均匀地分配。也可以引入

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值