计算机语言学笔记(六)词类自动标注

本文探讨了汉语中词的分类,主要依据词的语法功能,并详细介绍了词类自动标注的基本方法,包括基于规则、统计和两者结合的策略。重点讲解了基于隐马尔科夫模型的词类标注及其改进,同时提到了数据稀疏问题和平滑技术的应用。此外,还提及了基于转换的词类标注方法以及其他的机器学习模型。
摘要由CSDN通过智能技术生成

6 词类自动标注

6.1 汉语中词的分类

汉语中词分类的依据主要是词的分布特征,或者说主要依据词的语法功能。
词的语法功能主要指词在句法结构里所能占据的语法位置。(充当句法成分的能力和组合成短语的能力)

名词通常表示事物的名称、动词通常表示动作和行为、形容词表示事物的性质和状态。
实词和虚词:
1.实词可以充当主语、谓语和宾语。虚词则不可以。
2.实词有实在的意义,表示事物、动作、行为、变化、性质、状态、处所、时间等。虚词基本只起语法作用。
3.实词多为开放类,虚词多为封闭类。
实词通常可进一步分成体词和谓词。体词可以做主语和宾语。谓词主要做谓语。
体词:名词(1)、处所词(2)、方位词(3)、时间词(4)、区别词(5)、数词(6)、量词(7)、代词(8)。
谓词:动词(9)、形容词(10)
虚词:副词(11)、介词(12)、连词(13)、助词(14)、语气词(15)
拟声词(16)、感叹词(17)([朱德熙,《语法讲义》,商务印书馆,1982])

如果同一个词具有不同词类的语法功能,则认为这个词兼属不同的词类,简称兼类。
对于兼类词,词类标注程序应根据上下文确定兼类词在句子中最合适的词类标记。

6.2 词类自动标注

基本方法:基于规则的词类标注,基于统计的词类标注,统计规则相结合的词类标注。
基于规则的词类标注程序工作过程

  1. 查词典,给句中各词标记所有可能的词类标记。
  2. 应用规则,逐步删除错误的标记,最终只留下正确的标记。
    规则用以删除和上下文环境不相容的标记。

基于隐马尔科夫模型的词类标注:
HMM状态集:词类标记集。
HMM输出符号集:词表。
根据观察到的词串(句子),求解最可能的词类标记序列(状态转换序列)。 维特比算法。

改进基于HMM的词类标注:
暗含两个假设:
(1)句中某个词是否出现只和该词的词类标记有关句中的其他词以及其它词的词类标记无关。
(2)句中某个词的词类只和该词前面一个词的词类有而和句中其它词类无关。(词类的bigram模型)
可以扩充基于隐马尔科夫模型的词类标注模型,考虑更多的上下文,把词类的bigram模型改作trigram模型。
数据稀疏问题、应用平滑技术(线形插值)。

基于转换的词类标注:兼具规则和统计两个方面的特性。
应用规则进行标注,规则称为转换。
规则不是人工总结,而是应用机器学习的办法学习得到。使用的机器学方法通常称作基于转换的学习(Transformation-Based Learning or TBL)
激发环境:描述了应用转换需要满足的条件。
重写规则:描述了应用规则所要进行的动作。(修改词类标记)
if 激发环境 then 重写规则,例如:
激发环境:当前词前面一个词的词类是副形词(ad)
重写规则:把当前词的词类从名词(n)改作动词(v)

在转换规则使用前,待标注的句子已经进行过初步标注,转换规则负责改正其中的错误标注。
此外,还有基于决策树(Schmid 1994) 、基于神经元网络(Benello et al. 1989)、基于最大熵原则(Ratnaparkhi 1996)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值