7.、隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注

本文介绍了词性标注的概念、作用和难点,详细讲解了基于隐马尔可夫模型(HMM)、感知机和条件随机场(CRF)的词性标注方法,并通过实例展示了它们在处理OOV问题上的性能差异。同时,文章讨论了词性标注的评测、自定义词性和相关资源。
摘要由CSDN通过智能技术生成

笔记转载于GitHub项目https://github.com/NLP-LOVE/Introduction-NLP

7. 词性标注

7.1 词性标注概述

  1. 什么是词性

    在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。

    我/r 的/u 希望/n 是/v 希望/v 张晚霞/nr 的/u 背影/n 被/p 晚霞/n 映/v 红/a
    

    每个单词的后边跟的就是词性标签:

    词性标签 词性
    r 代词
    u 动词
    n 名词
    v 动词
    nr 人名
    p 介词
    a 形容词
  2. 词性的用处

    词性的作用是提供词语的抽象表示,词的数量是无穷的,但词性的数量是有限的。词性支撑着许多高级应用,当下游应用遇到 OOV 时,可以通过 OOV 的词性猜测用法,比如上面的句子“林晚霞”就识别为人名进行处理,而不会拆开。

    词性也可以直接用于抽取一些信息,比如抽取所有描述特定商品的形容词等。

  3. 词性标注

    词性标注指的是为句子中每个单词预测一个词性标签的任务。它有以下两个难点:

    • 汉语中一个单词多个词性的现象很常见,但在具体语境下一定是唯一词性。

    • OOV 是任何自然语言处理任务的难题。

  4. 词性标注模型

    统计方法为这两个难点提供了解决方案,那就是我们熟悉的序列标注模型。只需将中文分词中的汉字替换为词语,{B,M,E,S} 替换为“名词、动词、形容词等”,序列标注模型马上就可以用来做词性标注。

    词性标注既可以看作中文分词的后续任务,也可以与中文分词集成为同一个任务。其中就可以把分词语料库加上词性标签就可以了,这样同时进行多个任务的模型称为联合模型。由于综合考虑了多种监督信号,联合模型在几乎所有问题上都要优于独立模型。

    然而工业界就没有那么理想,同时具有分词和词性标注的语料库非常少,需要大量的人力进行标注。

7.2 词性标注语料库与标注集

同中文分词一样,语言学界在标注规范上存在分歧,导致目前还没有一个被广泛接受的汉语词性划分标准。无论是词性划分的颗粒度,还是词性标签都不统一。一方面,各研究机构各持己见、派系林立,标注了大量互不兼容的语料库。另一方面,部分语料库受到严格版权控制,成为内部材料,得不到充分共享利用

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值