斯坦福NLP笔记4 —— Word Normalization and Stemming

这节主要讲一些语言学的东西,一开始是lemmatization。

lemmatization:将词形变换转(inflections)为基本形式,看个例子:

  • am,are,is --> be

  • car,car's,cars --> car

  • the boy's cars are different colors -->the boy car be different color

然后介绍了morphology和morphemes,即构成词的要素,morphemes分为stems和affixes。

  • stems:词干,譬如discredit的credit

  • affixes:词缀,譬如discredit的dis

stemming:将一个词reduce得只剩下词干stem,譬如去掉词缀

最常用的英文stemming算法:Porter's Algorithm

115214_JInL_1865235.png

值得注意的是在去ing的时候有这样一个原则:

ing前面有元音时才去ing,否则不去,像sing这样前面没有元音的就不去ing。然后教授对此展开了具体的论述。譬如在有些时候这条规则是problematic的,如下:

115812_ihdJ_1865235.png

nothing、something都是前面有元音的词,但是他们的ing也不应该被去掉。

最后教授拿土耳其语举了个例子,来说明有些语言的morpheme segmentation相当复杂,因为土耳其语里面一个词格外长,几十个字母,其实就只是一个词。



转载于:https://my.oschina.net/silverhammer/blog/292376

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值