NLP学习-词形标准化

最新推荐文章于 2024-03-13 19:32:59 发布

任菜菜学编程

最新推荐文章于 2024-03-13 19:32:59 发布

阅读量1.7k

点赞数 1

分类专栏： NLP 人工智能文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/RHJlife/article/details/104835785

版权

人工智能同时被 2 个专栏收录

67 篇文章 11 订阅

订阅专栏

28 篇文章 13 订阅

订阅专栏

首先说一下文本分析流程：

NLP学习-分词：https://blog.csdn.net/RHJlife/article/details/104748790

NLP学习-清洗：https://blog.csdn.net/RHJlife/article/details/104834980

NLP学习-词形标准化：https://blog.csdn.net/RHJlife/article/details/104835785

NLP学习-文本特征向量化：https://mp.csdn.net/console/editor/html/104893608

NLP学习-建模：暂无

下面讲述词形标准化的相关内容。

在清洗过程中，我们说到了一个处理，就是同音近音近型替换也就是词形规范化，这里就讲述两种实现的方法，如下

词干提取（Stemming）：基于语言的规则，抽取词的词干或词根形式（不一定能够表达完整语义），方法较为简单。

词性还原（Lemmatisation）：基于字典的映射，把一个词汇还原为一般形式（能表达完整语义），方法较为复杂。

（个人也是从晚上搜索了很多相应的资料...发现机会都是一些调库实现，两者的区别和优劣等...具体原理我也没很好的get到，下面我也就简单介绍一些实现方法和优劣了...）

词干提取：在py中也有相应的库（nltk.stem.porter），很容易实现，主要有：

基于Porter词干提取算法，PorterStemmer()方法
基于Lancaster 词干提取算法，LancasterStemmer()方法
基于Snowball 词干提取算法，SnowballStemmer()方法

词性还原 ：在py中也有相应的库（nltk.stem.porter），很容易调用实现实现，最常见的就是WordNetLemmatizer()方法

以下将从各种方面对两者进行对比。

从目的上来说：是一致的，词干提取和词形还原的目标均是将词的其他分支形态或者派生形态归并为原始形态，都是一种对词的不同形态的统一归并的过程。

从实现方法上说：词干提取是基于语言的规则的，利用规则变化进行词缀的去除和缩减，从而达到词的简化效果，而词性还原是基于字典的映射，利用字典进行词形变化和原形的映射，还原成为原始单词。

从原理上来说：词干提取是采取缩减的方法将词转换为词干（boys->boy），而词性还原是采取转换的方法将词转换为其原型（made->make）。

从复杂性上来说：词干提取相对容易，而词性还原相对复杂。

从结果上来说：词干提取得到的结果有可能并不是具有意义的词，而只是词的一部分（例如revival->reviv），而词性还原得到的结果一定是完整的单词。

从应用领域上来说：词干提取用于信息检索领域较多，而词性还原更适合文本挖掘、自然语言处理等更精确的领域。

任菜菜学编程

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。