自然语言处理之文本标注问题

文本标注 (tagging) 是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式,标注问题的输入是一个观测序列,输出是一个标记序列护着状态序列,标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测,注意的是可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的
摘要由CSDN通过智能技术生成

文本标注 (tagging) 是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式,标注问题的输入是一个观测序列,输出是一个标记序列护着状态序列,标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测,注意的是可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的。



标注问题氛围学习和标注两个过程(如上图所示),首先给定一个训练数据集:


在这里xi为输入观测序列 (一维向量),yi为相应的输出观测序列 (一维向量),每个输入观测序列向量的长度为n,对不同样本具有不一样的值,学习系统基于训练数据集构建一个模型,表示为条件概率分布:


这里的每个xi(i=1,2,...,n)取值为所有可能的观测,每个Yi (i = 1,2..., n)取值为所有可能的标记,一般n远小于N,标注系统按照学习得到的条件概率分布模型,对新输入观测序列找到相应的输出标记序列。具体的对每一个观测序列,找到上式中概率最大的标记序列。

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值