数据挖掘原理与实践 读后总结

《数据挖掘原理与实践》并不是很复杂难解,适合数据挖掘的初学者.该书概述了数据挖掘的基本过程,并对常用的方法进行了细致的讲解.并配合实例分析,使之更易入门.

这两天把这本书大致的浏览了以便,在此做个总结,以便下次预览时能有所领悟.

  • 数据挖掘的定义

数据挖掘可以从两个方面来进行定义:技术和商业.从技术上来说数据挖掘就是从大量的数据中提取有用信息的过程.从商业的角度来说,数据挖掘是一种商业信息处理技术,其主要的特征是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据.

  • 数据挖掘任务
数据挖掘任务可以分为预测型任务和描述型任务,预测型任务就是根据其他属性的值预测特定属性的值,如回归、分类、离群点检测.描述型的任务就是寻找概况数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘.
  • 数据挖掘过程
数据挖掘过程的定义为:从数据中鉴别出有效模式的非平凡过程.该模式是新的,可能有用的和最终可解的.从技术角度考虑,数据挖掘的一般流程为:
  1. 数据清洗从原始数据集从清除无意义的或不合理的或者与研究无关的数据
  2. 数据集成将清洗后的数据从多个数据源合并到一个数据源进行处理(本人认为随着分布式计算的兴起,可能不是必要的步骤)
  3. 数据选择从处理后的数据源中选取特定的数据进行研究(往往数据源非常大,而在研究时,可以从其子集进行研究)
  4. 数据转换将选中的数据源根据一定的转换规则,转换成数据挖掘算法可以处理的数据形式
  5. 数据挖掘使用科学的技术方法从待挖掘的数据中找出数据模式和规律信息
  6. 模式识别根据一定的评估标准,从处理后的数据集中筛选或分析出知识
  7. 知识表示使用可视化或知识表达技术,来表示挖掘到的知识信息
  • 分类与回归
  1. 决策树分类方法
学过数据结构的人可以认为它是排序树的一种应用,只不过排序树只是对一个值树形进行分类,而决策树是根据多个属性来确定对象类别的方式而已(示例说明暂且略过).决策树分类算法的难点在于如何建立决策树,因为建立的规则不是事先知道的,而是需要进行动态探索.该书介绍了三种决策树算法:ID3、C45和CART算法.
ID3和C4.5都是用了信息增益作为属性分类的选择标准,因此需要介绍信息增益及其依赖概念.
信息熵(shang): 假设数据集人(人包括年龄、性别、婚否等信息)中的性别属性有三种选择(男,女,未知).那么要计算性别属性在数据集人中的信息熵值时,需要使用以下的计算方式.假设数据集中有个5个人,其中3个男人、2个女人和0个未知性别的人.则性别相对于数据集人来说的信息熵为:
-(3/5log3/5 + 2/5log2/5 + 0/5log0/5).意思就是说,计算每种类型发生的概率乘以2为底该概率的对数,然后对各种类型进行求和后,在乘以-1
增益信息: 假设数据集被使用性别划分,划分后将形成三个数据集,分布计算这三个数据集的另一属性的信息熵,假设是婚否,计算后,再根据比重求和,求和后拿性别的信息熵减去求和后的值,并得到了信息增益.
  1. 贝叶斯分类方法
  2. K-最邻近分类方法
  3. 神经网络分类方法
  4. 支持向量机
  5. 集成学习法
  6. 不平衡的数据分类
  7. 线性回归
  8. 非线性回归
  9. 逻辑回归
  • 聚类分析
  • 关联分析
  • 离群点挖掘

系统化地阐述了数据挖掘和知识发现技术的产生、发展、应用和相关概念、原理、算法。对数据挖掘中的主要技术分支,包括关联规则、分类、聚类、序列、空间以及Web挖掘等进行了理论剖析和算法描述。本书的许多工作是作者们在攻读博士学位期间的工作总结,一方面,对于相关概念和技术的阐述尽量先从理论分析入手,在此基础上进行技术归纳。另一方面,为了保证技术的系统性,所有的挖掘模型和算法描述都在统一的技术归纳框架下进行。同时,为了避免抽象算法描述给读者带来的理解困难,本书的所有典型算法都通过具体跟踪执行实例来进一步说明。本书共分8章,各章相对独立成篇,以利于读者选择性学习。在每章后面都设置专门一节来对本章内容和文献引用情况进行归纳,它不仅可以帮助读者对相关内容进行整理,而且也起到对本内容相关文献的注释性索引功能。第1章是绪论,系统地介绍了数据挖掘产生的商业和技术背景,从不同侧面剖析了数据挖掘的概念和应用价值;第2章给出了知识发现的过程分析和应用体系结构设计;第3章对关联规则挖掘的原理和算法进行全面阐述;第4章给出分类的主要理论和算法描述;第5章讨论聚类的常用技术和算法;第6章对时间序列分析技术和序列挖掘算法进行论述;第7章系统地介绍了Web挖掘的主要研究领域和相关技术及算法;第8章是对空间数据挖掘技术和算法的分析和讲述。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值