自然语言处理之文本标注问题

最新推荐文章于 2024-08-16 11:09:33 发布

lovive

最新推荐文章于 2024-08-16 11:09:33 发布

阅读量1.2w

点赞数 1

分类专栏：自然语言处理算法自然语言处理技术文章标签：自然语言处理标注问题文本处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gzmfxy/article/details/78720202

版权

文本标注是监督学习中的一个重要问题，涉及序列的观测和标记。通过学习和标注过程，利用条件概率分布模型预测观测序列的标记序列。常用方法包括HMM和CRF。评价指标包括精确率、召回率和F1值，广泛应用于信息抽取和自然语言处理领域，如词性标注等。

摘要由CSDN通过智能技术生成

文本标注 (tagging) 是一个监督学习问题，可以认为标注问题是分类问题的一个推广，标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式，标注问题的输入是一个观测序列，输出是一个标记序列护着状态序列，标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测，注意的是可能的标记个数是有限的，但其组合所成的标记序列的个数是依序列长度呈指数级增长的。

标注问题氛围学习和标注两个过程(如上图所示)，首先给定一个训练数据集：

在这里xi为输入观测序列 (一维向量)，yi为相应的输出观测序列 (一维向量)，每个输入观测序列向量的长度为n，对不同样本具有不一样的值，学习系统基于训练数据集构建一个模型，表示为条件概率分布：

这里的每个xi(i=1,2,...,n)取值为所有可能的观测，每个Yi (i = 1,2..., n)取值为所有可能的标记，一般n远小于N，标注系统按照学习得到的条件概率分布模型，对新输入观测序列找到相应的输出标记序列。具体的对每一个观测序列，找到上式中概率最大的标记序列。

最低0.47元/天解锁文章

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。