数据挖掘项目的特征和关键环节

1 数据挖掘简介
 
数据挖掘业界权威michael berry和gordon linoff的论述,数据挖掘是利用自动或半自动手段揭示大量数据中有意义的潜在规律的处理过程。这里需要强调的是“大量数据”和“有意义的潜在规律”,这两个特征将数据挖掘与传统的独立分散的数据分析及简单的数据库查询、报表应用区分开来。
 
数据挖掘应用在近年来迅速发展,其基础是关系型数据库系统应用的逐步普及和成熟,以数据库形态存在的业务数据大量积累,为数据挖掘中的“大量数据”和“自动或半自动手段”提供了可能;其驱动力是业务需求的发展,尤其是数据库应用系统上线后给业务需求带来的正反馈作用;其核心是产品化的数据挖掘产品和实施咨询服务。
 
2 数据挖掘项目形态
 
2.1基于数据仓库的数据挖掘

在很多项目中,数据挖掘是整合数据平台特别是数据仓库的延伸应用。通常,大型项目中,在数据仓库中为特定主题的数据挖掘建立数据集市,使得数据可以通过比较系统的形式定期加载更新,作为较为稳定的数据挖掘数据源;经过数据挖掘得到的数据规律,以计分预测或者与营销系统整合等形式发布到企业中,并经过一定的收效评估和阶段回顾,得出项目阶段性结论[1]。这种类型的项目,数据挖掘和数据仓库紧密结合,取用统一数据,有利于数据挖掘过程在企业的重用和固化,建立稳定的应用模式;但是数据挖掘的过程在较大程度上受到数据仓库建设的制约,见效的周期可能会较长,短期的投资见效比不理想,而且项目有很可能因数据仓库方面的问题而非数据挖掘的问题导致失败。

2.2先导型数据挖掘

数据挖掘项目也可以独立于数据仓库存在。在挖掘的主题已经明确而相应的数据仓库还未建立,或者是项目有较强的预研性的情况下,数据挖掘项目可以直接进入主题,取用运营系统的原始数据,建立针对具体数据挖掘用途的专用数据区,不考虑太多的重用批量加载环节,尽快地开始挖掘过程,并将结果与业务迅速沟通。这样做的好处是便于企业更直接地体验数据挖掘的效益,尤其是业务管理部门可以很快得到来自数据规律的直接决策支持信息,数据挖掘受数据仓库建设过程的制约较少,见效周期短,短期的投资见效比比较好。但是比较难形成较为稳定的应用模式,同时由于数据源及转换处理往往独立于企业数据仓库建设,部分工作可能会在以后的数据集市过程中重复开始,甚至出现数据的不一致性,如果存在过多的这种彼此独立的项目,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值