在自然语言处理(NLP)领域,单词除了其本身的含义可以用来传递信息外,单词的词性属性也包含也包含了非常重要的信息。根据单词的词性,人们可以对文本的单词进行过滤筛选,以筛选掉那些信息含量较少的单词,从而提升处理的文本质量。而如何从文本中有效地甄别每个单词的词性并非是一个简单的问题,原因在于中文单词很多是多词性的,而实际人眼去识别单词词性往往是根据单词的上下文来判断的。但是,如何让机器也像人一样能够根据上下文去判断词性呢?
为此,本文将介绍一种经典的词性分析方法来完成此项任务,即隐马尔科夫的词性分析方法。与现有的完整的隐马尔科夫词性方法不同,考虑到完整的隐马尔科夫方法需要拥有较为昂贵的数据资源,本文将从马尔科夫的理论基础出发介绍三种基于马尔科夫链的词性分析方法。这三种方法所考虑的问题一个比一个复杂,同时所需要的数据资源也越来越多。如此一来,就可以保证再各个资源条件下均可完成词性分析任务。当然了,越复杂的方法效果越好。
更重要的是,通过本文的介绍可以更好地了解隐马尔科夫理论的发展历程。也许隐马尔科夫方法本身很难,但一步步剖析下来也许就没那么难了。
更多信息,参见作者个人主页Jianping Cai's Research Page。