鹦鹉学舌之数据挖掘1:什么是数据挖掘

原创 2006年06月08日 23:14:00
数据挖掘:从大量数据中分析获得以前不知的、有效的、易被理解的信息,并用这些信息制定商业策略和决定的过程。(请注意,是过程,而不是技术,这一点很重要,往往决定数据挖掘项目的成败。)
下图是一个定义示例。
数据挖掘的几个关键特性:
1 large amount of data
2 discovering previously unkonwn, hidden information
3 making important business decision using the information
 
数据挖掘的概要:
1 数据:重要性不言而喻,套句话,Can't live without them.
   a 数据收集依赖很多因素:数据挖掘的目的,存在的数据,数据结构,可用的数据源,收集更多数据的成本和好处。
   b 选择必要的数据是一个艰巨的过程:数据越多并不能使它们之间的关联关系更明显,有可能更弱化;属性越多,会导致建模所需要的数据准备的工作量更大;属性越多,会需要更大的数据库,性能更高的硬件,成本会更高。
  c 因此样本数据就是必须的,样本数据的要求:必须足够多的共性去体现现有的数据;必须能够被现有的硬件处理;高质量数据。
 
2 数据准备:what to do?(其实,这是最能体现人的创造性的地方。)
   a Deriving new attributes & Attributes transformations: 需要注意的是,关注平时不留意的地方。
  b Attribute Selection: 排除无效的属性,选择最有用的属性。(往往这一步是比较难的,和最后的结果质量有很强的关系。)
 
数据挖掘的进行方式:
1 查证驱动Verification-Driven Approach:boss脑袋一亮,觉得这个点子不错,嗯,用数据模型来验证一下吧。
2 发现驱动Discovery-Driven Approach:大家都不知道该怎么做,用数据挖掘一弄,原来还存在这样的商业模式,嗯,针对这种模块开发专门的需求和实现。
 
数据挖掘最吸引的地方是能建立预测性而不是回顾性的模型。
与统计分析相同之处:
1,仍是数据分析
2,试图发现模式
3,试图解释或预测
4, 使用多样性工具
 
不同之处:
1,无假定的模型
2,自动搜索可能的模型
3,算法是可升级的(scalable)

数据挖掘工程师-学习路线

一、目前国内的数据挖掘人员工作领域大致可分为三类。 1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。 2)数据挖掘工程师:在多媒体、电商、搜索、...
  • skylovedaim
  • skylovedaim
  • 2015年09月23日 19:50
  • 2042

数据挖掘与机器学习关系与区别

数据挖掘与机器学习关系与区别 ps:本篇文章主要阐述最近在数据挖掘、机器学习等方面的学习心得,或许不太全面,仅供自己归纳总结。 主要参照 周志华老师的:机器学习与数据挖掘 一文。有兴趣的可以自行百度,...
  • phla_han
  • phla_han
  • 2016年01月07日 15:36
  • 5774

给师弟师妹们学习数据挖掘的一些建议

看着刚进实验室的师弟师妹们的迷茫,虽然也与他们进行过一些零散的交谈,但是都不够系统。因此,根据自己的经历给出学习数据挖掘的一些建议,大家可以根据自身的情况,具体问题具体分析,作为参考。希望在上一届的基...
  • recommender_system
  • recommender_system
  • 2015年11月28日 11:50
  • 6642

数据挖掘:实用案例分析_第二篇1

  • 2015年04月11日 12:50
  • 10.41MB
  • 下载

数据挖掘导论1

  • 2015年01月23日 09:05
  • 1.41MB
  • 下载

数据挖掘与Clementine使用培训(深圳电信).part1

  • 2009年10月15日 14:44
  • 2MB
  • 下载

数据挖掘概念与技术(英文 第二版)韩家炜 第9章1,2PPT

  • 2010年11月28日 19:34
  • 11.04MB
  • 下载

数据挖掘视频教程_14-15年最新 免费 (1/12)

  • 2015年04月08日 12:19
  • 209B
  • 下载

SQL2005 数据挖掘算法详解-从入门到精通1

  • 2008年12月29日 12:02
  • 9.85MB
  • 下载

数据挖掘:概念与技术(原书第2版) 配套 PPT PDF PART1

  • 2009年10月30日 11:00
  • 7.95MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:鹦鹉学舌之数据挖掘1:什么是数据挖掘
举报原因:
原因补充:

(最多只允许输入30个字)