【NLP学习笔记】Word Normalization and Stemming

这篇博客介绍了NLP中的Word Normalization和Stemming技术,包括Case Folding、Lemmation、Morphemes和Porter's算法,旨在帮助初学者理解如何处理英文单词的不同形式,以达到信息检索和文本处理的目的。
摘要由CSDN通过智能技术生成

此专栏记录NLP的学习,入门教程为油管上Dan Jurafsky的NLP教学视频。


        在NLP中一个常见的问题是,由于英语自身的特点,一个单词有不同的形式,不同时态,单复数,缩写等等,我们通常需要做一些工作将这些单词转换成其最简单的形式。

目录

Normalization

对称扩展

Case folding

Lemmation

Morphemes

Stemming 词干提取

Porter‘s 算法


Normalization

        在信息检索时,检索的文本和文本库里的词形式不一样,比如U.S.A和USA,我们通常希望想办法把它俩匹配起来。有两种方法:

  1. 使用一些方法把字符之间的句号删掉
  2. 不对称扩展。例如,输入windows,查询到window,windows, Windows等等。这种方法较强大但是复杂且低效,所以一般使用简单的对称扩展。

对称扩展

Case folding

        例如在信息检索应用中,我们通常将所有大写转换成小写,因为人们更喜欢使用小写。

        但是会有一些例外,比如词语或句子中间的大写字母,General Motors; 或者某些具有特殊意义的缩写,SAIL表示Stanford Artificial Intelligence Lab,就不再是我们日常使用的动词sail了。

        在情感分析,机器翻译和信息检索中,Case folding很有用。

Lemmation

        在英

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值