数据挖掘相关

本文介绍了数据挖掘中的聚类方法,包括文本聚类和常见的聚类算法,如K-Means、层次聚类等。同时,提到了ETL(数据抽取、转换、装载)和OLAP(在线分析处理)在数据处理中的作用。此外,讨论了机器学习中的监督学习、非监督学习和半监督学习,并简单阐述了主动学习的概念。
摘要由CSDN通过智能技术生成

      文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。

      聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”(unsupervised learning)过程,即聚类算法不需要“教师”的指导,不需要提供训练数据,它倾向于数据的自然划分

      ETL:Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。 ETL过程的主要目的就是以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据。

      OLAP (on-line analytical processing) 联机分析处理。是BI的一种全新封装方式。直接产物是报表或者cube。是使分析人员、管理人员、或者执行人员能够从多角度对信息进行快速、一致、交互地存取,从而对数据有更深入的了解的一类软件技术。OLAP展现在用户面前的是一幅多维视图。

      聚类分析计算方法主要有如下几种:
1. 划分法(partitioning metho

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值