《Natural Language Processing》斯坦福视频学习笔记——2.text processing

最新推荐文章于 2018-11-04 10:19:50 发布

小猿Joanna

最新推荐文章于 2018-11-04 10:19:50 发布

阅读量724

点赞数

分类专栏：自然语言处理文章标签： nlp 斯坦福大学视频

本文链接：https://blog.csdn.net/cangqiong112758/article/details/50531928

版权

9 篇文章 0 订阅

订阅专栏

本篇涉及到的文本处理，主要包含以下内容：

具体的笔记内容如下：

Lemmatization:使单词、句子还原
Stemming：使有相同词根的词还原
Porter Stemming Algorithm：词根还原算法，可以实现对英文单词进行还原英文单词的词性、词形变化，去掉前缀、后缀等等功能

[aeiou].*ing$：只有单词中存在aeiou才能删除结尾的ing，如king就不能删，而standing可以删。
缺陷：如living之类的词，删掉后变成liv，并没有真正意义上的还原
判断一个单词是否是句尾单词：
（1）之后有大量空白
（2）后面的标点是?!:
（3）当之后是一个片段时，之后无如etc等的缩略词。
决策树形式：
判断句尾单词的扩展条件：
（1）带.的单词的开头字母大小写、是否数字等
（2）.之后的单词开头字母大小写、是否数字等
（3）带.的单词长度
（4）带.的单词在句尾的概率
（5）.之后的单词在句首的概率

总结：

关注