数据挖掘相关

最新推荐文章于 2024-10-20 10:43:07 发布

imzoer

最新推荐文章于 2024-10-20 10:43:07 发布

阅读量2.3k

点赞数

分类专栏：笔试面试文章标签：数据挖掘文档 processing 数据仓库报表算法

本文链接：https://blog.csdn.net/imzoer/article/details/8046244

版权

本文介绍了数据挖掘中的聚类方法，包括文本聚类和常见的聚类算法，如K-Means、层次聚类等。同时，提到了ETL（数据抽取、转换、装载）和OLAP（在线分析处理）在数据处理中的作用。此外，讨论了机器学习中的监督学习、非监督学习和半监督学习，并简单阐述了主动学习的概念。

摘要由CSDN通过智能技术生成

文本聚类（Text clustering）文档聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段，为越来越多的研究人员所关注。

聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习”（unsupervised learning）过程，即聚类算法不需要“教师”的指导，不需要提供训练数据，它倾向于数据的自然划分。

ETL：Extract-Transform-Load的缩写，数据抽取（Extract）、转换（Transform）、装载（Load）的过程。 ETL过程的主要目的就是以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据。

OLAP (on-line analytical processing) 联机分析处理。是BI的一种全新封装方式。直接产物是报表或者cube。是使分析人员、管理人员、或者执行人员能够从多角度对信息进行快速、一致、交互地存取，从而对数据有更深入的了解的一类软件技术。OLAP展现在用户面前的是一幅多维视图。

聚类分析计算方法主要有如下几种：
1. 划分法(partitioning metho