数据挖掘经典书籍推荐

转载 2013年04月10日 15:18:35
记得2008年初,当我刚接触到数据挖掘的时候,看过一篇文章,介绍了数据挖掘方面有三本经典书籍:
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
  本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
  本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.
  本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。
    这几年实际做数据挖掘,补充基础知识时也主要以这几本书为指导。然后最后自己用来研读的书却是以下这本:
(4)Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining
 http://book.douban.com/subject/1465939/)。
    国内目前有翻译版(http://book.douban.com/subject/1786120/),这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,所以讲解很重视对于算法的理解(优缺点与适用范围等)。本书能找到PDF版完整的习题答案,非常适合于自学。
    若要从以上三本书再推荐另一本入门书,我会推荐I.H. Written的那本,这本书第I部分以输入、输出、算法、评估的脉络来讲解数据挖掘;第II部分介绍Weka软件使用。读这本书的好处读了之后马上可以用Weka来实验各种数据挖掘算法。
    其次推荐的是David Hand的《数据挖掘原理》(http://book.douban.com/subject/1103515/),本书作者是一名统计学家,所以里面会涉及到数据挖掘相对于统计的独特之处的内容,非常有价值;另外,本书以约化主义的观点来看待数据挖掘算法,认为有了数据集与明确的数据挖掘任务,数据挖掘算法可以看成是{模型结构、评分函数、搜索方法、数据管理技术}的四元组,然后逐一来讲解每一数据挖掘算法组件,让人觉得清楚明了。本书的第二章“测量与数据”也是很有价值的,因为我们虽然通过数据来做推断,但是数据是通过测量理论与事实(Reality)相联系的。
      最不怎么推荐的是《数据挖掘:概念与技术》,虽然我是从这本书的第一版最初得知数据挖掘这一概念。2005年10月份,我在海淀图书城逛,想看看有什么好书可以带到南极去看,当时发觉了这本书的第一版。看了看前言,就买了下来,因为原来只接触过数据库的我,数据挖掘这一概念太吸引自己了。虽然在南极期间自己只是将这本书盖了两个南极的纪念章,而没有真正看,但毕竟它在自己心中播种下了“数据挖掘”的种子。07年底转行做计算机的时候,虽然最初不是申请的数据挖掘的职位,当公司让我当“数据挖掘工程师”时,我还是很高兴地接受了。这五年来,我见证了数据挖掘这一行业的如火如荼的发展,也很庆幸自己入对了行,也要很感激这本书的作者与翻译者吧。从书的内容看,这本书将数据挖掘看成是数据库技术的自然演化,所以第2章讲的是数据仓库与OLAP,但是这部分内容对于怎样建数据仓库其实没有太大的帮助。数据挖掘作为一门交叉学科,一般认为其最重要的三门学科基础是机器学习、统计学与数据库技术。但是个人认为随着大数据时代的来临,传统数据库技术所起的作用在减弱,因为很多进行的数据挖掘的数据根本不会先被放到数据库中,而是直接通过文件来存储。本书的第二版中虽然增加了时间序列挖掘、图挖掘、社交网络分析、多媒体挖掘等新的内容,但这只是增加了广度,而没有让我们对数据挖掘的核心部分有更深的理解。

数据挖掘原理与算法

  • 2016年05月21日 10:15
  • 10.59MB
  • 下载

资源|28本必读的经典机器学习/数据挖掘书籍(免费下载)

机器学习/数据挖掘   Real World Machine Learning(现实世界中的机器学习) 作者:Henrik Brink,Jos...
  • haihongazar
  • haihongazar
  • 2017年04月06日 19:07
  • 953

三本最好的数据挖掘书籍1

  • 2014年03月30日 18:30
  • 12.53MB
  • 下载

数据挖掘到底哪本书强?

2010年----标志性的一年,在这一年中Facebook的数据量首次超过Google。这背后暗示着社交网站的数据量已经超过搜索引擎的访问量,也彰显出了社交网站在整个互联网行业中起着举足轻重的作用。在...
  • lihui19891118
  • lihui19891118
  • 2014年10月31日 22:13
  • 765

数据挖掘书籍

Web数据挖掘 http://book.douban.com/subject/3639345/集体智慧编程 http://book.douban.com/subject/3288908/简单,有代...
  • qq_35606497
  • qq_35606497
  • 2016年08月29日 15:30
  • 165

机器学习数据挖掘等经典书籍小结

机器学习经典书籍小结 博客第一篇文章[1]是转载的,也算是开始写博客不经意的表露了自己对机器学习的兴趣吧!那篇文章总结了机器学习的一些经典算法的论文与数学基础理论的一些书籍,对于开始学习机器学习的话...
  • lch614730
  • lch614730
  • 2013年12月09日 21:59
  • 3891

机器学习/数据挖掘, Python 书籍推荐

1. 适合入门的读物: 《深入浅出数据分析》这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。 《啤酒与尿布》通过案例来说事情,而且是最经典的例子。难易程度...
  • chlele0105
  • chlele0105
  • 2015年04月16日 17:32
  • 7239

数据挖掘经典教材,通俗易懂

  • 2010年05月17日 22:03
  • 1.99MB
  • 下载

客户端(浏览器端)数据存储技术概览

在客户端(浏览器端)存储数据有诸多益处,最主要的一点是能快速访问(网页)数据。(以往)在客户端有五种数据存储方法,而目前就只有四种常用方法了(其中一种被废弃了):Cookies Local Stora...
  • xianda9133
  • xianda9133
  • 2017年04月13日 10:59
  • 480

一本很好的数据挖掘类书籍

  • 2011年03月25日 10:36
  • 465KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据挖掘经典书籍推荐
举报原因:
原因补充:

(最多只允许输入30个字)