数据挖掘——概念、模型和算法读书笔记

现代世界是一个数据驱动的世界。

现代科学和工程建立在用“首要原则模型”来描述物理、生物和社会科学系统的基础上。这种方法从基础的科学模型入手,如牛顿运动定律和麦克斯韦的电磁公式,然后基于模型来建立各种机械工程和电子工程方面的各种应用。

运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程叫做数据挖掘。

数据挖掘是一个迭代的过程,在这个过程中,所取得的进步用“发现”来定义,这种发现是通过自动或者手工的方法获得的。

从大量的数据中搜寻有价值的、非同寻常的信息,是人和计算机合力的结果。它在人类描述问题和目标的知识与计算机的搜索能力之间寻求平衡,以求获得最好的效果。

数据挖掘的两个基本目标:预测和描述。

预测:涉及到使用数据集中已知的变量或域来预测其他我们所关心变量的未知或者未来的值;

    预测性数据挖掘目标:生成已知数据集所描述的系统模型;

    预测性数据挖掘后期:得出一种模型,以可执行代码来表示;

描述:找出描述可由人解释的数据模式;

    描述性数据挖掘目标:在可用的数据集基础上生成新的、非同寻常的信息;

    描述性数据挖掘后期:利用大型非数据集中的未知模式和关系获得对分析系统的理解。

数据挖掘的基本任务:

方法基本目标功能
分类预测学习功能的发现将一个数据项映射到几个预定义类中的一类
回归预测学习功能的发现将一个数据项映射到一个真实值预测变量
聚类一种普遍的描述性任务寻求以确定有限的一组类别或类来描述数据
总结概括一种附加的描述性任务寻找对数据集或子集的简单描述方法。
关联建模 发现描述变量之间或者数据集或其一部分的特征值之间的重要相关性的本地模型。
变化和偏差检测 发现数据集中最重要的变化

数据挖掘的成功主要依赖于:设计者投入的精力,知识和创造力。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值