一、概念 文本挖掘是从大量文本数据中抽取隐含的,未知的,可能有用的信息。 难点 语言难点:文本不是给计算机阅读的、复杂的语言结构(语法、语义、语用)、歧义(更困难的)、多语言 KDD算法难点:海量(大规模的数据集)、高维时效性(随时间变化的数据和知识)、噪音数据、挖掘出的模式的可理解性 二、模型结构