rnn词性标注算法_初学者 | 一起来看看词性标注

最新推荐文章于 2022-11-28 21:15:00 发布

VIP文章 weixin_39740737

最新推荐文章于 2022-11-28 21:15:00 发布

阅读量327

点赞数

文章标签： rnn词性标注算法

本文链接：https://blog.csdn.net/weixin_39740737/article/details/111621234

版权

欢迎关注同名微信公众号:AI小白入门。跟着博主的脚步，每天进步一点点哟

本文根据自己的学习过程以及查阅相关资料的理解，对自然语言基础技术之词性标注进行了相对全面的简绍，包括定义、目前的难点以及常见方法，还推荐了一大波python实战利器，并且包括工具的用法。

词性定义

维基百科上对词性的定义为：In traditional grammar, a part of speech (abbreviated form: PoS or POS) is a category of words (or, more generally, of lexical items) which have similar grammatical properties.

词性指以词的特点作为划分词类的根据。词类是一个语言学术语，是一种语言中词的语法分类，是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。

从组合和聚合关系来说，一个词类是指：在一个语言中，众多具有相同句法功能、能在同样的组合位置中出现的词，聚合在一起形成的范畴。词类是最普遍的语法的聚合。词类划分具有层次性。如汉语中，词可以分成实词和虚词，实词中又包括体词、谓词等，体词中又可以分出名词和代词等。

词性标注就是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程，这也是自然语言处理中一项非常重要的基础性工作，所有对于词性标注的研究已经有较长的时间，在研究者长期的研究总结中，发现汉语词性标注中面临了许多棘手的问题。

中文词性标注的难点

汉语是一种缺乏词形态变化的语言，词的类别不能像印欧语那样，直接从词的形态变化上来判别。

常用词兼类现象严重。《现代汉语八百词》收取的常用词中，兼类词所占的比例高达22.5%，而且发现越是常用的词，不同的用法越多。由于兼类使用程度高，兼类现象涉及汉语中大部分词类，因而造成在汉语文本中词类歧义排除的任务量巨大。

研究者主观原因造成的困难。语言学界在词性划分的目的、标准等问题上还存在分歧。目前还没有一个统的被广泛认可汉语词类划分标准，词类划分的粒度和标记符号都不统一。词类划分标准和标记符号集的差异，以及分词规范的含混性，给中文信

最低0.47元/天解锁文章

weixin_39740737

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
rnn词性标注算法_初学者 | 一起来看看词性标注

欢迎关注同名微信公众号:AI小白入门。跟着博主的脚步，每天进步一点点哟本文根据自己的学习过程以及查阅相关资料的理解，对自然语言基础技术之词性标注进行了相对全面的简绍，包括定义、目前的难点以及常见方法，还推荐了一大波python实战利器，并且包括工具的用法。词性定义维基百科上对词性的定义为：In traditional grammar, a part of speech (abbreviated f...
复制链接

扫一扫