数据挖掘读书笔记-Jiawei Han
張清扬
移动互联网专业,大数据方向
展开
-
数据挖掘:概念与技术(第三版)之第四章的学习记录
本章主要介绍数据仓库与联机分析处理。 本章为KDD中的数据挖掘知识引入进行了铺垫。 学习完本章要能够把数据仓库,数据立方体,OLAP,星形、雪花型、和事实星座这些概念进行区分,并有序的组织在一起。数据仓库 第一章我就介绍了数据仓库,在那里详细对比了一下数据仓库与数据库。不清楚的同学,可以回过去看看第一章 当然,在这里书上也是做了非常详细的解释说明,我就不多说了。这里我着重谈一下数据仓库的价值原创 2017-06-29 13:50:12 · 3197 阅读 · 1 评论 -
数据挖掘:概念与技术(第三版)之第三章的学习记录
本章主要讲的是数据预处理。正如我在第一章里给出的KDD的流程一样,在数据的预处理中,需要做数据清理、数据集成、数据归约、数据变化等操作。这里需要强调的一点的是,这些步骤并不是完全孤立的。意思就是说我们在做数据清理的时候可能也相当于做了一部分的数据归约和集成,并不是我对对数据进行清理的时候,数据就真的只被清理了,实际上数据同时也被归约了或者集成了。 这里在总结一下这几步的作用数据清理可以用来清楚数原创 2017-06-26 16:26:43 · 2001 阅读 · 3 评论 -
数据挖掘:概念与技术(第三版)之第十二章的学习记录
本章主要讨论离群点的问题。 什么是离群点 离群点检测(又称异常检测)是找出其行为很不同于预期对象的过程,这种对象被称为离群点或异常。 简单来说,离群点就是一个显著不同于其他数据对象的异常数据对象。 这里需要特别注意的是,离群点不同于噪声数据。 噪声数据即是令人不感兴趣的数据,也就是说是在某种情况下,我们关注之外的数据 。 举个例子:在我们想睡觉时,有人大声的播放贝多芬的音乐。在这种情况下原创 2017-08-23 11:54:15 · 992 阅读 · 0 评论 -
数据挖掘:概念与技术(第三版)之第九章的学习记录
本章学习数据分类的高级技术贝叶斯信念网络书上写的比较笼统,初学者可能会看的倒懂不懂的。因此,可以看看我在本章列出的参考文章。 1.1摘要 在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是原创 2017-07-24 11:01:01 · 3780 阅读 · 0 评论 -
数据挖掘:概念与技术(第三版)之第八章的学习记录
本章讲解分类的一些基本概念什么是分类 首先我们要知道的是,分类是一种重要的数据分析形式,它提取和刻画重要数据类的模型。这个模型被称之为分类器(classifer)。通过分类器,我们可以预测分类的类标号。 建议不熟悉这个概念的同学们 ,首先看一下这篇文章。 贷还是不贷:如何用 Python 和机器学习帮你决策? 此外,还需要弄清楚分类和回归的联系和区别,关于这一点,我已经在第一章的部分做了详细原创 2017-07-17 14:48:59 · 12015 阅读 · 2 评论 -
数据挖掘:概念与技术(第三版)之第五章的学习记录
完全立方体计算多路数组聚集(Multiway) 我们在第四章的时候已经稍微提到过一点,高性能的OLAP操作依赖于多维数据模型及物化和索引技术。其中物化技术分为全部物化和部分物化。这里的多路数据聚集是全部物化的一种算法。我们知道全部物化就是把整个数据立方体进行预计算。那么我们在把整体放入内存中进行计算的时候,为了节约资源或者说提高性能。必须要考虑这么两个东西。 (1)尽量减少块反复调入内存的次数。原创 2017-07-03 11:28:48 · 2768 阅读 · 0 评论 -
数据挖掘:概念与技术(第三版)之第二章的学习记录
本章主要讲的是数据,具体来说 ,是涉及到考察数据的属性和数据值。本章为第三章的数据预处理做铺垫作用。数据对象和属性类型 关于数据对象和属性的定义这里自不多谈,都容易理解。说多了反而复杂 。这里重点介绍的是数据属性的几种类型。标称属性 这个属性的概念解释起来不是很好理解,但看实际例子一眼就明白了。 头发颜色(黑色,黄色,红色,蓝色,绿色) 职业(学生,教师,工人,农民) 枪支类型(1,2,3原创 2017-06-19 11:05:37 · 2493 阅读 · 1 评论 -
数据挖掘:概念与技术(第三版)之第一章的学习记录
写在前面的话 第一章为引论,主要对技术和概念进行概述。但是在我读来,书中对一些概念的阐述对于初学者来说相当不友好,完全是流于对高深词汇的堆积。我不知道是自己水平有限理解不了还是翻译得不到位,所以为了理解这些东西,干脆自己查阅资料,把自己的理解写在这里,以便自己时时查阅,也方便和我有一样困惑的同学们参考。由于自己也是一个新手,且是边看边写的,对于其中某些东西理解可能也是仅限于皮毛甚至会有偏差,所以之原创 2017-06-14 10:26:22 · 4192 阅读 · 0 评论 -
数据库和数据仓库的本质区别是什么?
关于数据库和数据仓库的本质区别到底是什么?我们先来看一个例子。拿电商行业来说好了。基本每家电商公司都会经历,从只需要业务数据库到要数据仓库的阶段。电商早期启动非常容易,入行门槛低。找个外包团队,做了一个可以下单的网页前端 + 几台服务器 + 一个MySQL,就能开门迎客了。这好比手工作坊时期。第二阶段,流量来了,客户和订单都多起来了,普通查询已经有压力了,这个时候就需要升级架构变成多台服务器和多个业原创 2017-08-24 10:36:24 · 5858 阅读 · 0 评论 -
数据挖掘:概念与技术(第三版)之第七章的学习记录
在第六章我们讲了频繁模式的挖掘,本章主要讲高级模式挖掘。 模式挖掘相对于频繁模式挖掘来说,是一个更一般的术语。就是说模式挖掘不仅包括了频繁模式挖掘还包括了如稀有模式,负模式。然后,很多情况下,这两个术语是混用的。所以说,实际上频繁模式在模式挖掘里面占的比重相当相当大。 我们首先来理清一下,到底什么是模式? 模式就是数据中蕴含的规律或规律性的东西。我们知道KDD分为描述性和预测性,挖掘出一个模式原创 2017-07-14 09:17:10 · 2708 阅读 · 0 评论 -
数据挖掘:概念与技术(第三版)之第六章的学习记录
本章主要对挖掘频繁模式进行讲解。 频繁模式是指频繁地出现在数据集中的模式,具体包括频繁项集、频繁序列模式、频繁结构模式。具体的解释书上写得很详细,我们也在第一章的时候进行了讲解,这里就不多提了。 前面的诱发例子也不多说了,都很好理解。 这里,假设我们分析的是超市的数据仓库。 OK,那我们可以把全域想象成商品的集合,而每种商品购买与否就可以用布尔型变量来表示了。比如全域商品是这样的一个集合{西原创 2017-07-10 17:30:06 · 7172 阅读 · 4 评论 -
数据挖掘:概念与技术(第三版)之第十章的学习记录
本章主要讲解聚类的基本概念和方法对聚类的浅要分析聚类是什么意思,很好理解,这里不说了。 需要注意的是一下这几点 1、在相同的数据集上,不同的聚类方法可能产生不同的聚类 。 2、聚类可以作为其他算法的预处理步骤。书P289页最上方给出了一个识别手写数字的例子。 3、聚类在搜索中也有广泛的应用。 4、聚类可以应用与离群点检测。 5、聚类被称为无监督学习。KDD对聚类分析的要求是P289,10原创 2017-08-11 11:53:46 · 7312 阅读 · 0 评论 -
数据挖掘:概念与技术(第三版)之第十一章的学习记录
在传统的聚类分析中,对象被互斥地指派到一个簇中。然后在许多应用中,需要以模糊或概率方式把一个对象指派到一个或多个簇。本章将讨论允许一个对象属于多个簇的聚类主题。基于概率模型的聚类我们先从讨论模糊簇的概念开始,然后在推广到基于概率模型的簇。模糊簇 要引入模糊簇就不得不说模糊集 书上P324页,11.1.1先给出了有关模糊集的数学定义,然后例11.3给出了一个例子 ,并且谈到了隶属度。然后,由模糊集原创 2017-08-17 16:13:00 · 1979 阅读 · 0 评论