文本数据分析(一):基本框架
在文本数据分析基本框架中,我们涉及到了六个步骤:
数据收集
数据预处理
数据挖掘和可视化
模型构建
模型评估
虽然框架需要迭代,但是我们先将其看作是一个线性的过程:
修正过的文本数据处理框架(依然很简单……)
很显然,文本数据预处理位于框架的第二步,这一步所包含的详细步骤有以下两个:
在原始文本语料上进行预处理,为文本挖掘或NLP任务做准备
数据预处理分为好几步,其中有些步骤可能适用于给定的任务,也可能不适用。但通常都是标记化、归一化和替代的其中一种(tokenization, normalization, substitution)。
通常,我们会选取一段预先准备好的文本,对其进行基本的分析和变换,遗留下更有用的文本数据,方便之后更深入、更有意义的分析任务。接下来将是文本挖掘或自然语言处理工作的核心工作。
所以再次重复以便,文本预处理的三个主要组成部分:
标记化(tokenization)
归一化(normalization)
替换(substitution)
在下面介绍预处理方法的过程中,我们需要时刻牢记这三个概念。
文本预处理框