关闭

鹦鹉学舌之数据挖掘1:什么是数据挖掘

1710人阅读 评论(0) 收藏 举报
数据挖掘:从大量数据中分析获得以前不知的、有效的、易被理解的信息,并用这些信息制定商业策略和决定的过程。(请注意,是过程,而不是技术,这一点很重要,往往决定数据挖掘项目的成败。)
下图是一个定义示例。
数据挖掘的几个关键特性:
1 large amount of data
2 discovering previously unkonwn, hidden information
3 making important business decision using the information
 
数据挖掘的概要:
1 数据:重要性不言而喻,套句话,Can't live without them.
   a 数据收集依赖很多因素:数据挖掘的目的,存在的数据,数据结构,可用的数据源,收集更多数据的成本和好处。
   b 选择必要的数据是一个艰巨的过程:数据越多并不能使它们之间的关联关系更明显,有可能更弱化;属性越多,会导致建模所需要的数据准备的工作量更大;属性越多,会需要更大的数据库,性能更高的硬件,成本会更高。
  c 因此样本数据就是必须的,样本数据的要求:必须足够多的共性去体现现有的数据;必须能够被现有的硬件处理;高质量数据。
 
2 数据准备:what to do?(其实,这是最能体现人的创造性的地方。)
   a Deriving new attributes & Attributes transformations: 需要注意的是,关注平时不留意的地方。
  b Attribute Selection: 排除无效的属性,选择最有用的属性。(往往这一步是比较难的,和最后的结果质量有很强的关系。)
 
数据挖掘的进行方式:
1 查证驱动Verification-Driven Approach:boss脑袋一亮,觉得这个点子不错,嗯,用数据模型来验证一下吧。
2 发现驱动Discovery-Driven Approach:大家都不知道该怎么做,用数据挖掘一弄,原来还存在这样的商业模式,嗯,针对这种模块开发专门的需求和实现。
 
数据挖掘最吸引的地方是能建立预测性而不是回顾性的模型。
与统计分析相同之处:
1,仍是数据分析
2,试图发现模式
3,试图解释或预测
4, 使用多样性工具
 
不同之处:
1,无假定的模型
2,自动搜索可能的模型
3,算法是可升级的(scalable)
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:30264次
    • 积分:593
    • 等级:
    • 排名:千里之外
    • 原创:30篇
    • 转载:1篇
    • 译文:0篇
    • 评论:2条
    最新评论
  • BPM chapter1

    评估问题: 有谁评估过北京炎黄盈动的AWS BPM平台或同类产品选型评估的相关对比资料吗,请赐教:ba_7803...

  • BPM学习笔记1

    beik: 有谁评估过北京炎黄盈动的AWS BPM平台或同类产品选型评估的相关对比资料吗,请赐教:ba_7803...