<数据挖掘--概念与技术>读后感

最新推荐文章于 2018-07-24 11:17:00 发布

Eric77

最新推荐文章于 2018-07-24 11:17:00 发布

阅读量2.2k

点赞数

分类专栏：读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Eric77/article/details/72591076

版权

本文是对《数据挖掘--概念与技术》一书的读后感，涵盖了数据挖掘的基础概念、处理流程，包括数据清理、集成、选择、变换等预处理阶段，以及数据挖掘的核心技术，如模式评估、分类和聚类算法的详细介绍。文章强调了数据的相似性、相异性度量、预处理的重要性，并列举了各种数据属性的处理方法，如标称属性、二元属性、数值属性的度量。此外，还讨论了决策树、贝叶斯分类、K均值等经典算法，以及数据挖掘过程中需要注意的错误和修正。

摘要由CSDN通过智能技术生成

//2017-05-20 13:30

这篇文章我已经欠了至少一年了，周五写记录时，本想写开始认真搞黑客，但突然发现之前的总结少了这一篇，心里实在过不去，遂补上，顺便梳理一下之前学习的总结，也了却一心愿。

数据挖掘的目标是从数据集中识别出一种或多种模式，并用所发现的模式进行分析或预测。

处理数据的过程分以下几个步骤：
1.数据清理->2.数据集成->3.数据选择->4.数据变换(前4个阶段都是预处理阶段)->5.数据挖掘->6.模式评估->7.知识表示

一切的万物都是从基石开始打好基础：

1.明白数据和它所属的属性，因为不同属性的数据，用的方案不一样。
属性有如下类型：标称(nominal)属性，二元(binary)属性，序数(numeric)属性，离散属性，连续属性。

2.然后要明白一些对数据基本属性量度的方案：
各种均值（算数平均，加权平均），中位数，众数，方差，标准差。

3.度量数据的相似性和相异性
数据相似性和相异性又称邻近性(proximity)，是一个非常非常重要的指标，数据的差异和距离都是通过这个来衡量的，以后的算法中，很多都是基于此去判断。
由于数据本身有不同的属性，所以度量它们的临近性根据数据属性不同使用不同的方法：
a.标称属性: d(i,j) = (p-m)/p
b.二元属性: Jaccard系数
c.数值属性: Minkowski distanc

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
<数据挖掘--概念与技术>读后感

//2017-05-20 13:30这篇文章我已经欠了至少一年了，周五写记录时，本想写开始认真搞黑客，但突然发现之前的总结少了这一篇，心里实在过不去，遂补上，顺便梳理一下之前学习的总结，也了却一心愿。数据挖掘的目标是从数据集中识别出一种或多种模式，并用所发现的模式进行分析或预测。处理数据的过程分以下几个步骤：1.数据清理-&gt;2.数据集成-&gt;3.数据选择-&gt...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。