一 序
本文属于NLP学习笔记系列。
二 停用词
对于NLP的应用,我们通常将停用词、出现频率很低的词过滤掉。
关于停用词词典,可以看下之前的: 文本预处理与停用词
这个主要是对业务影响不大,不影响分析,类似于特征筛选的过程。
要考虑自己的应用场景。
case:一些形容词通常会过滤掉,但是在情感分析中表达语气要保留。
自己会做修改。
三 词的标准化
这块就是英文的。举例:went,go,going 时态不同,还有单复数,比较级等等。
涉及技术:
词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)
词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)
中文不涉及,所以就不看了。感兴趣的可以看看porter stemmer.