NLP学习笔记
文章平均质量分 70
数分面试加油
这个作者很懒,什么都没留下…
展开
-
【NLP学习笔记】Word Normalization and Stemming
此专栏记录NLP的学习,入门教程为油管上Dan Jurafsky的NLP教学视频。 在NLP中一个常见的问题是,由于英语自身的特点,一个单词有不同的形式,不同时态,单复数,缩写等等,我们通常需要做一些工作将这些单词转换成其最简单的形式。目录Normalization对称扩展Case foldingLemmationMorphemesStemming 词干提取Porter‘s 算法 在信息检索时,检索的文本和文本库里的词形式不一样,比如U.S.A和USA,我们通常希望想办法把它俩匹原创 2022-06-15 04:20:38 · 268 阅读 · 0 评论 -
【NLP 学习笔记】Regular Expressions 正则表达式
在预处理文本的时候,常常出现一些问题,例如首字母大小写,单复数形式等等,解决这个问题的一个方法就是Regular Expressions,即正则表达式。解决这些问题本质上是在解决两种错误:原创 2022-06-14 07:21:27 · 245 阅读 · 0 评论