NLP笔记(二)

来源:Cousera哥大自然语言处理课程

标注问题

这里写图片描述

标记例子

这里写图片描述

Local VS Contextual

  • Local:根据经验进行标记
  • Contextual:根据上下文语法结构进行标记

KEY:Balance Local & Contextual

三元隐马尔科夫模型 (Trigram HMMs)

Trigram HMMs

例子

这里写图片描述

参数估计

q(yi|yi1,yi2)

这里写图片描述

e(xi|yi)

这里写图片描述

低频率词汇问题

e(base,Vt)=0

导致
P(x1,x2,...,xn,y1,y2,...,yn+1)=0

因此无法确定 argmaxy1,y2,...,yn+1P .

解决办法

初步
1. 将词汇分为两块
第一块为常见词汇, timesnum(eg:5)
第二块为低频率词汇
2. 将低频率词汇映射到小的有限集(根据前缀、后缀等等)

例子
这里写图片描述

Viterbi算法

Viterbi定义

循环定义

这里写图片描述

得到序列
这里写图片描述

其中算法复杂度为 O(n|S|3)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值