NLP学习-词形标准化

首先说一下文本分析流程:

NLP学习-分词:https://blog.csdn.net/RHJlife/article/details/104748790

NLP学习-清洗:https://blog.csdn.net/RHJlife/article/details/104834980

NLP学习-词形标准化https://blog.csdn.net/RHJlife/article/details/104835785

NLP学习-文本特征向量化:https://mp.csdn.net/console/editor/html/104893608

NLP学习-建模:暂无

下面讲述词形标准化的相关内容。

在清洗过程中,我们说到了一个处理,就是同音近音近型替换也就是词形规范化,这里就讲述两种实现的方法,如下

词干提取(Stemming):基于语言的规则,抽取词的词干或词根形式(不一定能够表达完整语义),方法较为简单。

词性还原 (Lemmatisation):基于字典的映射,把一个词汇还原为一般形式(能表达完整语义),方法较为复杂。

(个人也是从晚上搜索了很多相应的资料...发现机会都是一些调库实现,两者的区别和优劣等...具体原理我也没很好的get到,下面我也就简单介绍一些实现方法和优劣了...)

词干提取:在py中也有相应的库(nltk.stem.porter),很容易实现,主要有:

  1. 基于Porter词干提取算法,PorterStemmer()方法
  2. 基于Lancaster 词干提取算法,LancasterStemmer()方法
  3. 基于Snowball 词干提取算法,SnowballStemmer()方法

词性还原 :在py中也有相应的库(nltk.stem.porter),很容易调用实现实现,最常见的就是WordNetLemmatizer()方法

以下将从各种方面对两者进行对比。

从目的上来说:是一致的,词干提取和词形还原的目标均是将词的其他分支形态或者派生形态归并为原始形态,都是一种对词的不同形态的统一归并的过程。

从实现方法上说:词干提取是基于语言的规则的,利用规则变化进行词缀的去除和缩减,从而达到词的简化效果,而词性还原是基于字典的映射,利用字典进行词形变化和原形的映射,还原成为原始单词。

从原理上来说:词干提取是采取缩减的方法将词转换为词干(boys->boy),而词性还原是采取转换的方法将词转换为其原型(made->make)。

从复杂性上来说:词干提取相对容易,而词性还原相对复杂。

从结果上来说:词干提取得到的结果有可能并不是具有意义的词,而只是词的一部分(例如revival->reviv),而词性还原得到的结果一定是完整的单词。

从应用领域上来说:词干提取用于信息检索领域较多,而词性还原更适合文本挖掘、自然语言处理等更精确的领域。

 

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值