问题1:下面在 NLP 项目中哪些是文本预处理的重要步骤?
1、词干提取(Stemming)
2、移去停止词(Stop word removal)
3、目标标准化(Object Standardization)
答案:1、2 和 3
解析:词干提取是剥离后缀(「ing」,「ly」,「es」,「s」等)的基于规则的过程。停止词是与语境不相关的词(is/am/are)。目标标准化也是一种文本预处理的优良方法。
问题2:下面哪项技巧可用于关键词归一化(keyword normalization),即把关键词转化为其基本形式?
1、词形还原(Lemmatization)
2、Levenshtein
3、词干提取(Stemming)
4、探测法(Soundex)
答案:1、3
解析:词形还原和词干提取一般用于关键词归一化,Levenshtein 和探测法一般用于字符串匹配。