统计是搜集数据、分析、描述和解释的过程。也就是说统计的主要工作包含搜集数据、分析数据,主要的目的是描述目前的现状,或者解释某个情况出现的原因,即描述性分析。
数据类型包括名义型、顺序型、间隔型、比率型。名义型标称类别属性,顺序型表示类别有等级之分,假如属性间的间隔有意义便是间隔型,两个属性的比值有意义就是比率型。
因此变量包括类别变量和数值变量两种。
数据挖掘是利用统计学、计算机技术和数学进行数据分析的科学。因为统计学在数据挖掘建模中占有重要地位,因此统计模型中关心的问题也是数据挖掘中关心的问题。如模型的可靠性、可扩展性、伸缩性等等。