NLP 学习笔记9-停用词

一 序

  本文属于NLP学习笔记系列。

二 停用词

对于NLP的应用,我们通常将停用词、出现频率很低的词过滤掉。

关于停用词词典,可以看下之前的: 文本预处理与停用词

这个主要是对业务影响不大,不影响分析,类似于特征筛选的过程。

要考虑自己的应用场景。

case:一些形容词通常会过滤掉,但是在情感分析中表达语气要保留。

自己会做修改。

三 词的标准化

  这块就是英文的。举例:went,go,going  时态不同,还有单复数,比较级等等。

  涉及技术:

   词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)

  词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)

  中文不涉及,所以就不看了。感兴趣的可以看看porter stemmer.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值