文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”(unsupervised learning)过程,即聚类算法不需要“教师”的指导,不需要提供训练数据,它倾向于数据的自然划分。
ETL:Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。 ETL过程的主要目的就是以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据。
OLAP (on-line analytical processing) 联机分析处理。是BI的一种全新封装方式。直接产物是报表或者cube。是使分析人员、管理人员、或者执行人员能够从多角度对信息进行快速、一致、交互地存取,从而对数据有更深入的了解的一类软件技术。OLAP展现在用户面前的是一幅多维视图。
聚类分析计算方法主要有如下几种:
1. 划分法(partitioning metho