鹦鹉学舌之数据挖掘1:什么是数据挖掘

原创 2006年06月08日 23:14:00
数据挖掘:从大量数据中分析获得以前不知的、有效的、易被理解的信息,并用这些信息制定商业策略和决定的过程。(请注意,是过程,而不是技术,这一点很重要,往往决定数据挖掘项目的成败。)
下图是一个定义示例。
数据挖掘的几个关键特性:
1 large amount of data
2 discovering previously unkonwn, hidden information
3 making important business decision using the information
 
数据挖掘的概要:
1 数据:重要性不言而喻,套句话,Can't live without them.
   a 数据收集依赖很多因素:数据挖掘的目的,存在的数据,数据结构,可用的数据源,收集更多数据的成本和好处。
   b 选择必要的数据是一个艰巨的过程:数据越多并不能使它们之间的关联关系更明显,有可能更弱化;属性越多,会导致建模所需要的数据准备的工作量更大;属性越多,会需要更大的数据库,性能更高的硬件,成本会更高。
  c 因此样本数据就是必须的,样本数据的要求:必须足够多的共性去体现现有的数据;必须能够被现有的硬件处理;高质量数据。
 
2 数据准备:what to do?(其实,这是最能体现人的创造性的地方。)
   a Deriving new attributes & Attributes transformations: 需要注意的是,关注平时不留意的地方。
  b Attribute Selection: 排除无效的属性,选择最有用的属性。(往往这一步是比较难的,和最后的结果质量有很强的关系。)
 
数据挖掘的进行方式:
1 查证驱动Verification-Driven Approach:boss脑袋一亮,觉得这个点子不错,嗯,用数据模型来验证一下吧。
2 发现驱动Discovery-Driven Approach:大家都不知道该怎么做,用数据挖掘一弄,原来还存在这样的商业模式,嗯,针对这种模块开发专门的需求和实现。
 
数据挖掘最吸引的地方是能建立预测性而不是回顾性的模型。
与统计分析相同之处:
1,仍是数据分析
2,试图发现模式
3,试图解释或预测
4, 使用多样性工具
 
不同之处:
1,无假定的模型
2,自动搜索可能的模型
3,算法是可升级的(scalable)

相关文章推荐

数据挖掘:实用案例分析_第二篇1

  • 2015年04月11日 12:50
  • 10.41MB
  • 下载

数据挖掘导论1

  • 2015年01月23日 09:05
  • 1.41MB
  • 下载

数据挖掘10大算法(1)——PageRank

http://www.cnblogs.com/FengYan/archive/2011/11/12/2246461.html 1. 前言 这系列的文章主要讲述2006年评出的数据挖掘1...

《python数据挖掘入门与实践》笔记1

《python数据挖掘入门与实践》 OneR算法的实现。 对四个特征的花瓣数据进行分类。分类的规则可参考OneR算法的内容。...

数据挖掘.原理与研究前沿(1)

  • 2008年05月24日 15:45
  • 3.72MB
  • 下载

Rattle :基于R的数据挖掘工具(1):简介和安装

原文地址http://site.douban.com/182577/widget/notes/10567212/note/241676525/ 很好的
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:鹦鹉学舌之数据挖掘1:什么是数据挖掘
举报原因:
原因补充:

(最多只允许输入30个字)