NLP之语言词素Morpheme(形态学)

Morpheme (词素),人类语言中表达语义的最小单元。

举个例子:

  • Eat 表示“吃”,不能再分了,ea 或 at 在这里都没有任何意义。所以eat是一个word,也是一个Morpheme。
  • Tomcats 表示 “雄猫”的复数, (包含三个 morphemes: tom = male, cat=animal, -s = plural)

   

Morpheme词素,可以分为两类, Free Morpheme和 Bound Morpheme。

Free Morpheme,比如前面的eat,可以独立作为一个word,可以单独使用。

Bound Morpheme,比如前面的-s,必须附加到其它的Morpheme词素,和它们一起使用。

根据各个词素在word中的不同作用和位置,可以把它们进行成分式的分类/划分。下面的图描述了对kickers一词进行成分划分。

 

 

至于Stem。一般而言,给Root加一个derivational morpheme派生词素,它就变成了Stem 比如,kickers中kick就是这个词的Root,加上派生词素-er后,则kicker变成了Stem,派生词素-er负责将kick从一个动词派生(转化)为一个名词,含义相关,但已变化。

与派生词素容易混淆的是屈折词素Inflectional Morphemes,比如我们在kicker后加词素-s,

kicker的语义没有任何变化,但是在语法中人称格数发生了变化,这样的词素就被称为屈折词素Inflectional Morphemes。与派生词素-er相比,屈折词素-s可以改变时态或人称格数,不能改变含义。

 既然Base是Bound Morpheme可以附着的主体部分。那么我们再来看看可以附着在Base上的那部分Bound Morpheme,即Affixes。

 

Affixes词缀分为前缀Prefixes和后缀Suffixes两类。

举个例子:

给你一个word,把这个word分析出Base Root Stem和Affixes等词素成分的过程叫做词分析Word Analysis。

比如:

  • hospitalize - complex word, free base hospital (root) + -ize derivational suffix
  • hospitalizes = stem [hospital (root) + -ize affix] + -s

这种分析表明,单词不是一下子形成的。需要遵循顺序来构成。为了捕捉描述单词形成的过程,语言学家开发了两种表示方法。一种方法是标记包围;另一种方法是树结构。 

标记包围:表示如下 

 再来一个更复杂的标记包围的例子

 用树结构表示是什么样子的呢?

Trees can be drawn from the top-down or from the bottom-up.

Using the top down method: start with the base word label, in this case A for adjective, then split off each major division. In this case there is just one affix, Af, and an adjective, A. Once the parts are labeled, the word parts can be filled in underneath.

把rehospitalizes用树结构表示,则会是下面这个样子:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

子燕若水

吹个大气球

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值