维特比(viterbi)算法与中文词性标注(三)

viterbi算法用于中文词性标注

维特比(viterbi)算法与中文词性标注(一)—— 隐含马尔科夫模型

维特比(viterbi)算法与中文词性标注(二)—— 维特比算法

任务简述

中文词性标注是在中文分词器将文本划分为逐个词汇的基础上,将每个词的词性进行标注

输入:李 明 在 北京 考察 企业

输出:李/nr 明/nr 在/p 北京/ns 考察/v 企业/n

HMM模型

将中文词性标注套用到HMM模型中。

  • 其隐藏的状态序列就是每个词汇的词性
  • 每个状态的输出内容为预料中的词汇

首先讨论其对于HMM三大假设的符合情况:

  • 每个词汇在句中某处的词性取决于该词的前一个词的词性
  • 词汇的词性与该词汇在文中的前后位置无关
  • 某个词汇的出现概率仅与其词性有关

根据模型的特点,可以见得我们要解决的问题属于第二类问题范畴:解码问题,在已知语料中的词汇序列的基础上,得到词性序列。

解决思路

根据训练集合的语料,计算得出HMM的五元组。

  • 所有出现的词性
  • 所有出现的词汇
  • 每句话句首的词性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值