此专栏记录NLP的学习,入门教程为油管上Dan Jurafsky的NLP教学视频。
在NLP中一个常见的问题是,由于英语自身的特点,一个单词有不同的形式,不同时态,单复数,缩写等等,我们通常需要做一些工作将这些单词转换成其最简单的形式。
目录
Normalization
在信息检索时,检索的文本和文本库里的词形式不一样,比如U.S.A和USA,我们通常希望想办法把它俩匹配起来。有两种方法:
- 使用一些方法把字符之间的句号删掉
- 不对称扩展。例如,输入windows,查询到window,windows, Windows等等。这种方法较强大但是复杂且低效,所以一般使用简单的对称扩展。
对称扩展
Case folding
例如在信息检索应用中,我们通常将所有大写转换成小写,因为人们更喜欢使用小写。
但是会有一些例外,比如词语或句子中间的大写字母,General Motors; 或者某些具有特殊意义的缩写,SAIL表示Stanford Artificial Intelligence Lab,就不再是我们日常使用的动词sail了。
在情感分析,机器翻译和信息检索中,Case folding很有用。
Lemmation
在英