bulk of the 用法_词性标注(Part-of-Speech Tagging),HMM

本文详细介绍了词性标注的重要性和两种主要的词性标注算法:词性赋值算法,特别是隐马尔可夫模型(HMM)。文章讨论了HMM的基本原理,包括马尔可夫链、HMM的组成部分以及解码问题。通过维特比算法解决了HMM中的最可能隐藏状态序列问题,并通过例子解释了如何在实际中应用这些概念。
摘要由CSDN通过智能技术生成

909fce013f7bae77531a8b4be3a81c8b.png

这篇文章文字比较多,需要耐心

Parts-of-speech(也称为词性、词类或句法类别)很有用,因为它们揭示了一个单词及其相邻词的很多信息。知道一个单词是名词还是动词可以告诉我们可能的相邻单词(名词前面有限定词和形容词,动词前面有名词)和句法结构单词(名词通常是名词短语的一部分),使词性标注成为解析的一个关键方面。在信息提取或共同参考解决中,部分词性是标记命名实体(如人员或组织)的有用特性。单词的词性甚至可以在语音识别或合成中发挥作用,例如,单词content作为名词时发音为CONtent,作为形容词时发音为conTENT。首先介绍词性标注,然后介绍词性标注的两种算法——词性赋值算法一种是生成隐马尔可夫模型(HMM),另一种是判别最大熵马尔可夫模型(MEMM)。后面还要介绍基于递归神经网络的第三种算法。这三种方法的性能大致相同,但是,正如我们将看到的,有不同的权衡。

(Mostly) English Word Classes

到目前为止,我们一直在相当自由地使用词性术语,如名词和动词。在本节中,我们将对这些类和其他类给出更完整的定义。虽然词类确实有语义倾向——例如形容词,但本章通常介绍词性,然后介绍词性标注的两种算法,即词性赋值词类可以分为两大类:封闭类和开放类封闭类是成员相对固定的类,比如介词——很少会创造新的介词。相比之下,名词和动词都是开放类——像iPhone或fax这样的新名词和动词不断地被创建或借用。任何给定的说话者或语料库都可能有不同的开放类单词但是所有语言的说话者以及足够大的语料库都可能共享一组封闭类单词。封闭类词通常是像of、it、and、or you这样的虚词,它们往往很短,经常出现,在语法中经常有结构用法。

世界语言中有四种主要的开放类:名词、动词、形容词和副词。英语有这四种语言,尽管不是每种语言都有。语法类名词包括大多数人、地方或事物的单词,但也包括其他的。名词包括船和椅子这样的具体术语,带宽和关系这样的抽象术语,以及像踱步这样的动词术语。那么,在英语中定义名词的是,它与限定词(a goat, its bandwidth, Plato’s Republic)一起出现的能力、占有(IBM的年收入),以及大多数(但不是所有)名词以复数形式出现的能力(goats,abaci)。

开放类名词分为两类。专有名词,如Regina、Colorado和IBM,是特定个人或实体的名称。在英语中,它们通常不加冠词(例如,the book is upstairs, but Regina is upstairs)。在书面英语中,专有名词通常大写。另一类是普通名词,在包括英语在内的许多语言中被分为可数名词和量名词。可数名词允许语法枚举,以单数和复数形式出现(goat/goats, relationship/relationships)),它们可以被计数(one goat, two goats)。当某物被概念化为一个同质群时,就会用到大众名词。因此,像snow, salt, 和 communism这样的词是不计算在内的。(i.e., *two snows or *two communisms)。大众名词也可以不带冠词出现,而单数可数名词不能(Snow is white but not *Goat is white)。

动词指的是动作和过程,包括像draw、provide和go这样的主要动词。英语动词有屈折变化(非第三人称sg (eat),第三人称sg (eats),进行时(eating),过去分词(eating))。第三种公开类英语形式是形容词,这是一个包含许多属性或性质的术语的类。大多数语言都有描述颜色概念的形容词(white, black),年龄(old, young),价值(good, bad),但是有些语言没有形容词。例如,在韩语中,英语形容词对应的单词充当动词的子类,所以英语中的形容词“beautiful”在韩语中充当动词,意思是“to be beautiful”。

最后一个开放类形式副词在形式和意义上都是一个大杂烩。下列所有斜体字均为副词:

115ee0d017478df30afae0ecdd3c1c76.png

这个类在语义上的一致性可能仅仅是这些词中的每一个都可以被看作是在修改某些东西(通常是动词,因此得名“副词”,但也包括其他副词和整个动词短语)。方向副词或位置副词(home, here, downhill)指定某个动作的方向或位置;程度副词(extremely, very, somewhat)指定某个动作、过程或属性的程度;方式副词(slowly, slinkily, delicately)描述某种行为或过程的方式;时间副词用来描述某一动作或事件发生的时间(yesterday, Monday)。由于这个类的异构性,一些副词(如temporal adverbs like Monday)在一些标记方案中被标记为名词。

封闭类与开放类相比,语言之间的差异更大。一些重要的英语封闭式类包括:

介词on, under, over, near, by, at, from, to, with
助词:up, down, on, off, in, out, at, by
限定词:a, an, the
连词:and, but, or, as, if, when
代词:she, who, I, others
助动词:can, may, should, are
数字:one, two, three, first, second, third

介词出现在名词短语之前。 在语义上,它们通常表示空间或时间关系,无论是字面(on it, before then, by the house)还是隐喻(on time, with gusto, beside herself),但也经常指示其他关系,如标记代理人(哈姆雷特) 由莎士比亚写的,一个类似于介词或副词的助词,与动词结合使用。助词的扩展意义往往与它们类似的介词不完全相同

一个动词和一个助词作为一个句法和/或语义单位被称为短语动词。短语动词的意义往往是有问题的非成分的,不能预测从不同的意义的动词和粒子。因此,turn down的意思是‘reject’,rule out ‘eliminate’, find out‘discover’, and go on ‘continue’.

与名词一起出现的封闭类,通常标记名词短语的开头,是限定词。限定词的一个子类型是冠词:英语有三个冠词:a, an, and the。其他决定因素包括这个和那个(this chapter,that page)。A和an标记名词短语为不定代词,而A标记名词短语为定代词;确定性是一种话语属性。英语中冠词相当频繁;事实上,the是大多数书面英语语料库中出现频率最高的单词,而a和an通常紧随其后。连词连接两个短语、从句或句子。并列连词like and, or, and but连接两个地位相同的元素。当其中一个元素具有某种嵌入状态时,使用从属连词。例如,“I thought that you might like some milk”是一个从属连词,将主句I thought和从句you might like some milk连接起来。这句话之所以称为从属句,是因为这整句话都是主句though的“content”。像这样把动词和它的论据连接起来的从属连词也叫做补语。代词是指代名词短语、实体或事件的一种简写形式。人称代词是指人或实体(你、她、我、它、我等)。物主代词是人称代词的一种形式,它既表示实际占有,也表示人与某物(my, your, his, her, its, one 's, our, their)之间的抽象关系。人称代词(what, who, whom, who)在某些疑问句中使用,也可以作为补语(弗里达,她嫁给了迭戈……)英语动词的闭类子类型是助动词。跨语言,助动词标记主要动词的语义特征:一个动作是否发生在现在、过去或将来(时态),是否完成(方面),是否否定(极性),一个动作是否必要、可能、建议或期望(情绪)。英语助动词包括copula动词be、do和have,以及它们的屈折形式,以及一类情态动词。Be之所以被称为copula,是因为它将主语与某些类型的谓语名词和形容词连接起来(他是一只鸭子)。have动词可以表示完成时态(I have gone, I had gone), be用作被动语态(We were stolen)或进行时(We are leaving)的一部分。情态动词用来标记与主动词所描述的事件相关的语气:can表示能力或可能性,may表示许可或可能性,must表示必要性。还有一个情态动词have(例如,I have to go)。

Penn Treebank的词性标记集

英语中一个重要的标记集是Penn Treebank标记集,它有45个标记,如图8.1所示。在这样的标签中,词性通常通过在每个单词后面放置标记来表示,用斜杠分隔

34edf207acdb14a3cfbf3a0ee7eebc3a.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值