自然语言处理学习笔记七(词性标注)

最新推荐文章于 2023-11-12 10:28:24 发布

置顶犀利哗啦760596103

最新推荐文章于 2023-11-12 10:28:24 发布

阅读量1k

点赞数

文章标签：词性标注序列标注模型语料库自定义词性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuhuabing760596103/article/details/121170122

版权

一. 词性标注概述

1.1 什么是词性

词性是单词的语法分类，同一个类别的词语具有相似的语法性质，所有词性的集合称为词性标注集。不同的语料库采用不同的词性标注集，一般含有形容词、动词、名词等常见词性。

1.2 词性的用处

词性的作用就是提供词语的抽象表示，词性支撑许多的高级应用，当下游应用遇到OOV时，可以通过OOV的词性猜测用法。

1.3 词性标注

它是指为句子中的每个单词预测一个词性标签的任务，是自然语言处理中一项重要的基础任务。

1.4 词性标注模型

由于词性标注的两个难点（一是一个单词多个词性，一个具体语境一定是唯一词性；二是OOV是自然语言处理的难题），为此使用序列标注模型解决这两个难点。

二. 词性标注语料库与标注集

同中文分词一样，语言学界在标注规范上存在分歧，导致目前还没有一个被广泛接受的汉语词性划分标准。无论是词性划分的颗粒度，还是词性标签的不统一。故有了各种互不兼容的语料库。

2.1 《人民日报》语料库与PKU标注集

2.2 国家语委语料库与863标注集

2.3 《诛仙》语料库与CTB标注集

三. 序列标注模型应用于词性标注

3.1 基于隐马尔可夫模型的词性标注

3.2 基于感知机的词性标注

3.3 基于条件随机场的词性标注

3.4 词性标注评测

四. 自定义词性

在工程上，许多用户希望将特定的一些词语打上自定义的标签，称为自定义词性。

4.1 朴素实现

基于词典的规则系统，用户将自己关系的词语以及自定义词性以词典的形式挂载，从而在各种词法分析器中得到相应的词性。

4.2 标注语料

词性的确定是需要根据上下文语境，需要通过统计模型来进行，也是统计模型所擅长的。为了实现自定义词性，最佳实践就是标注一份语料库，然后训练一个统计模型。

五. 总结

词性标注所需的原料无非就是一些语料以及一份特征模板，根据语料库的规模、特征模板、机器学习模型的不同，词性标注的准确率也随之变化。

总体而言，要提高词性标注器的准确率，无非就是标注更多语料、设计更复杂的特征模板、采用更复杂的机器学习模型。另外，为了实现自定义词性，依靠词典匹配虽然简单但是比较死板，只能用于一词一义的情况。如果涉及兼类词，标注一份领域语料才是正确做法。

犀利哗啦760596103

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。