6 词类自动标注
6.1 汉语中词的分类
汉语中词分类的依据主要是词的分布特征,或者说主要依据词的语法功能。
词的语法功能主要指词在句法结构里所能占据的语法位置。(充当句法成分的能力和组合成短语的能力)
名词通常表示事物的名称、动词通常表示动作和行为、形容词表示事物的性质和状态。
实词和虚词:
1.实词可以充当主语、谓语和宾语。虚词则不可以。
2.实词有实在的意义,表示事物、动作、行为、变化、性质、状态、处所、时间等。虚词基本只起语法作用。
3.实词多为开放类,虚词多为封闭类。
实词通常可进一步分成体词和谓词。体词可以做主语和宾语。谓词主要做谓语。
体词:名词(1)、处所词(2)、方位词(3)、时间词(4)、区别词(5)、数词(6)、量词(7)、代词(8)。
谓词:动词(9)、形容词(10)
虚词:副词(11)、介词(12)、连词(13)、助词(14)、语气词(15)
拟声词(16)、感叹词(17)([朱德熙,《语法讲义》,商务印书馆,1982])
如果同一个词具有不同词类的语法功能,则认为这个词兼属不同的词类,简称兼类。
对于兼类词,词类标注程序应根据上下文确定兼类词在句子中最合适的词类标记。
6.2 词类自动标注
基本方法:基于规则的词类标注,基于统计的词类标注,统计规则相结合的词类标注。
基于规则的词类标注程序工作过程
- 查词典,给句中各词标记所有可能的词类标记。
- 应用规则,逐步删除错误的标记,最终只留下正确的标记。
规则用以删除和上