自然语言处理学习篇01——Basic Text Processing

最新推荐文章于 2024-06-03 17:12:52 发布

huaweidong2011

最新推荐文章于 2024-06-03 17:12:52 发布

阅读量7k

点赞数

分类专栏：自然语言处理学习篇文章标签：自然语言处理 processing basic classification statistics 正则表达式

本文链接：https://blog.csdn.net/huaweidong2011/article/details/7704389

版权

前言：

自然语言处理（Natural Language Processing——NLP）广泛应用于语音识别、机器翻译、自动问答等领域。早期的自然语言处理技术是基于“词性”和“语法”的，到了70年代走到了尽头，取而代之的是基于“数理统计”的方法。NLP的历史可以参考《数学之美》（吴军著）一书。

本系列跟随斯坦福Dan Jurafsky教授和Christopher Manning助理教授来学习NLP的具体知识。其中包括word and sentence tokenization（单词和语句分割）、text classification（文本分类）sentiment analysis（情感分析）等，probality（概率论）、statistics（统计学）、machine learning（机器学习）的基础理论，以及一些基础算法如n-gram language modeling（n阶语言模型）、naive bayes and maxent classifiers、 Hidden Markov Models（隐含马尔可夫模型）等内容。

斯坦福NLP课程网址https://www.coursera.org/course/nlp

(本人英语水平有限，如有纰漏，欢迎拍砖）

第一章：Basic Text Processing

第一章讲述基本的文本处理，包含如下四个方面的内容：

Regular Expression
Word Tokenization
Word Normalization and Stemming
Sentence Segmentation

1.1 Regular Expressions（正则表达式）

直观地想，假如我们想要从一大段文本中找到某个词，会面临什么样的问题？word形式的问题，比如说woodchuck（土拨鼠），其出现的形式还可能是woodchucks/Woodchuck/Woodchucks。这就需要我们通过一些“规则"进行处理，Regular Expressins就是这样的一些规则。

[ ] : 匹配方括号中的任意一个字符，如下图[wW]可以匹配W或者w。

[ a-b ] : 匹配从a到b范围内的所有字符。

^ : 行开头； $ : 行结尾。如下图第一个 ^[A-Z]匹配所有行开头非大学字母的行。

最低0.47元/天解锁文章

huaweidong2011

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
5
评论
自然语言处理学习篇01——Basic Text Processing

前言：自然语言处理（Natural Language Processing——NLP）广泛应用于语音识别、机器翻译、自动问答等领域。早期的自然语言处理技术是基于“词性”和“语法”的，到了70年代走到了尽头，取而代之的是基于“数理统计”的方法。NLP的历史可以参考《数学之美》（吴军著）一书。本系列跟随斯坦福Dan Jurafsky教授和Christopher Manning助理教授来学习N
复制链接

扫一扫

专栏目录