概念:文本挖掘算法不能直接在原始文本形式上处理。因此,在预处理阶段,将文本转化为更易计算机识别的信息,即对文本进行形式化处理。
模型:向量空间模型;概率模型;概念模型;
向量空间模型
1、主要步骤
(1)将文本的基本语言单位(字、词、词组、短语)抽取,组成特征项,用tn表示
概念:文本挖掘算法不能直接在原始文本形式上处理。因此,在预处理阶段,将文本转化为更易计算机识别的信息,即对文本进行形式化处理。
模型:向量空间模型;概率模型;概念模型;
向量空间模型
1、主要步骤
(1)将文本的基本语言单位(字、词、词组、短语)抽取,组成特征项,用tn表示