前言:
自然语言处理(Natural Language Processing——NLP)广泛应用于语音识别、机器翻译、自动问答等领域。早期的自然语言处理技术是基于“词性”和“语法”的,到了70年代走到了尽头,取而代之的是基于“数理统计”的方法。NLP的历史可以参考《数学之美》(吴军 著)一书。
本系列跟随斯坦福Dan Jurafsky教授和Christopher Manning助理教授来学习NLP的具体知识。其中包括word and sentence tokenization(单词和语句分割)、text classification(文本分类)sentiment analysis(情感分析)等,probality(概率论)、statistics(统计学)、machine learning(机器学习)的基础理论,以及一些基础算法如n-gram language modeling(n阶语言模型)、naive bayes and maxent classifiers、 Hidden Markov Models(隐含马尔可夫模型)等内容。
斯坦福NLP课程网址https://www.coursera.org/course/nlp
(本人英语水平有限,如有纰漏,欢迎拍砖)
第一章:Basic Text Processing
- Regular Expression
- Word Tokenization
- Word Normalization and Stemming
- Sentence Segmentation
1.1 Regular Expressions(正则表达式)
直观地想,假如我们想要从一大段文本中找到某个词,会面临什么样的问题?word形式的问题,比如说woodchuck(土拨鼠),其出现的形式还可能是woodchucks/Woodchuck/Woodchucks。这就需要我们通过一些“规则"进行处理,Regular Expressins就是这样的一些规则。
![](https://img-my.csdn.net/uploads/201206/30/1341026214_7728.png)
![](https://img-my.csdn.net/uploads/201206/30/1341026236_2653.png)