数据挖掘推荐书籍

最新推荐文章于 2024-04-26 23:09:19 发布

Adolph_Chou

最新推荐文章于 2024-04-26 23:09:19 发布

阅读量1.1k

点赞数

分类专栏：研发文章标签：数据挖掘机器学习统计学大数据数据库

研发专栏收录该内容

3 篇文章 0 订阅

订阅专栏

记得2008年初，当我刚接触到数据挖掘的时候，看过一篇文章，介绍了数据挖掘方面有三本经典书籍：
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
  本书从数据库角度看待数据挖掘，强调效率（Efficiency）。按照本书观点，数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
  本书从机器学习角度看待数据挖掘，强调有效(Effectiveness)。按照这本书的观点，数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.
  本书从统计学的角度看待数据挖掘，因为统计学是一门数学，所以本书强调数学上的正确性(Validity)。按照本书观点，数据挖掘是分析（往往是大量的）数据集以找到未曾预料的关系，并以可理解又有用的新颖方式呈现给数据用户的过程。
    这几年实际做数据挖掘，补充基础知识时也主要以这几本书为指导。然后最后自己用来研读的书却是以下这本：
（4）Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining
（http://book.douban.com/subject/1465939/）。
    国内目前有翻译版（http://book.douban.com/subject/1786120/），这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分，第二章讲高级部分，让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身，所以讲解很重视对于算法的理解（优缺点与适用范围等)。本书能找到PDF版完整的习题答案，非常适合于自学。
    若要从以上三本书再推荐另一本入门书，我会推荐I.H. Written的那本，这本书第I部分以输入、输出、算法、评估的脉络来讲解数据挖掘；第II部分介绍Weka软件使用。读这本书的好处读了之后马上可以用Weka来实验各种数据挖掘算法。
    其次推荐的是David Hand的《数据挖掘原理》(http://book.douban.com/subject/1103515/)，本书作者是一名统计学家，所以里面会涉及到数据挖掘相对于统计的独特之处的内容，非常有价值；另外，本书以约化主义的观点来看待数据挖掘算法，认为有了数据集与明确的数据挖掘任务，数据挖掘算法可以看成是{模型结构、评分函数、搜索方法、数据管理技术}的四元组，然后逐一来讲解每一数据挖掘算法组件，让人觉得清楚明了。本书的第二章“测量与数据”也是很有价值的，因为我们虽然通过数据来做推断，但是数据是通过测量理论与事实(Reality)相联系的。
      最不怎么推荐的是《数据挖掘：概念与技术》，虽然我是从这本书的第一版最初得知数据挖掘这一概念。2005年10月份，我在海淀图书城逛，想看看有什么好书可以带到南极去看，当时发觉了这本书的第一版。看了看前言，就买了下来，因为原来只接触过数据库的我，数据挖掘这一概念太吸引自己了。虽然在南极期间自己只是将这本书盖了两个南极的纪念章，而没有真正看，但毕竟它在自己心中播种下了“数据挖掘”的种子。07年底转行做计算机的时候，虽然最初不是申请的数据挖掘的职位，当公司让我当“数据挖掘工程师”时，我还是很高兴地接受了。这五年来，我见证了数据挖掘这一行业的如火如荼的发展，也很庆幸自己入对了行，也要很感激这本书的作者与翻译者吧。从书的内容看，这本书将数据挖掘看成是数据库技术的自然演化，所以第2章讲的是数据仓库与OLAP，但是这部分内容对于怎样建数据仓库其实没有太大的帮助。数据挖掘作为一门交叉学科，一般认为其最重要的三门学科基础是机器学习、统计学与数据库技术。但是个人认为随着大数据时代的来临，传统数据库技术所起的作用在减弱，因为很多进行的数据挖掘的数据根本不会先被放到数据库中，而是直接通过文件来存储。本书的第二版中虽然增加了时间序列挖掘、图挖掘、社交网络分析、多媒体挖掘等新的内容，但这只是增加了广度，而没有让我们对数据挖掘的核心部分有更深的理解。

Adolph_Chou

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘推荐书籍

记得2008年初，当我刚接触到数据挖掘的时候，看过一篇文章，介绍了数据挖掘方面有三本经典书籍：(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques. 本书从数据库角度看待数据挖掘，强调效率（Efficiency）。按照本书观点，数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。(2)
复制链接

扫一扫