总结
在这一章中,我们学习了关于各种自然语言处理基本概念。我们讨论了分词 以及如何分离输入文档分成多个词。
我们学了如何使用stemming和leammatization将单词还原成最基本的形式。我们实现了文本的分块器,用于将文本按照预定义的条件分块。
我们讨论了次贷模型 ,并且为输入的文本构建了一个文档的单词矩阵,我们之后学习了怎样使用机器学习进行文本的分类。我们使用启发式构建了一个性别识别器。我们使用机器学习分析影评。我们讨论了topic modeling并实现了一个识别给定文本主题的系统。
在下一章中,我们将学习如何使用隐含马尔可夫模型构建序列数据模型,之后使用它分析股份市场数据。