数据挖掘推荐书籍

记得2008年初,当我刚接触到数据挖掘的时候,看过一篇文章,介绍了数据挖掘方面有三本经典书籍:
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
  本书从数据库角度看待数据挖掘,强调效率(Efficiency)。按照本书观点,数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过程。
(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
  本书从机器学习角度看待数据挖掘,强调有效(Effectiveness)。按照这本书的观点,数据挖掘是从数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.
  本书从统计学的角度看待数据挖掘,因为统计学是一门数学,所以本书强调数学上的正确性(Validity)。按照本书观点,数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的新颖方式呈现给数据用户的过程。
    这几年实际做数据挖掘,补充基础知识时也主要以这几本书为指导。然后最后自己用来研读的书却是以下这本:
(4)Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining
 http://book.douban.com/subject/1465939/)。
    国内目前有翻译版(http://book.douban.com/subject/1786120/),这是我现在觉得最好的数据挖掘教材。关于分类、关联规则、聚类每一主题都分两章来讲述:第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,所以讲解很重视对于算法的理解(优缺点与适用范围等)。本书能找到PDF版完整的习题答案,非常适合于自学。
    若要从以上三本书再推荐另一本入门书,我会推荐I.H. Written的那本,这本书第I部分以输入、输出、算法、评估的脉络来讲解数据挖掘;第II部分介绍Weka软件使用。读这本书的好处读了之后马上可以用Weka来实验各种数据挖掘算法。
    其次推荐的是David Hand的《数据挖掘原理》(http://book.douban.com/subject/1103515/),本书作者是一名统计学家,所以里面会涉及到数据挖掘相对于统计的独特之处的内容,非常有价值;另外,本书以约化主义的观点来看待数据挖掘算法,认为有了数据集与明确的数据挖掘任务,数据挖掘算法可以看成是{模型结构、评分函数、搜索方法、数据管理技术}的四元组,然后逐一来讲解每一数据挖掘算法组件,让人觉得清楚明了。本书的第二章“测量与数据”也是很有价值的,因为我们虽然通过数据来做推断,但是数据是通过测量理论与事实(Reality)相联系的。
      最不怎么推荐的是《数据挖掘:概念与技术》,虽然我是从这本书的第一版最初得知数据挖掘这一概念。2005年10月份,我在海淀图书城逛,想看看有什么好书可以带到南极去看,当时发觉了这本书的第一版。看了看前言,就买了下来,因为原来只接触过数据库的我,数据挖掘这一概念太吸引自己了。虽然在南极期间自己只是将这本书盖了两个南极的纪念章,而没有真正看,但毕竟它在自己心中播种下了“数据挖掘”的种子。07年底转行做计算机的时候,虽然最初不是申请的数据挖掘的职位,当公司让我当“数据挖掘工程师”时,我还是很高兴地接受了。这五年来,我见证了数据挖掘这一行业的如火如荼的发展,也很庆幸自己入对了行,也要很感激这本书的作者与翻译者吧。从书的内容看,这本书将数据挖掘看成是数据库技术的自然演化,所以第2章讲的是数据仓库与OLAP,但是这部分内容对于怎样建数据仓库其实没有太大的帮助。数据挖掘作为一门交叉学科,一般认为其最重要的三门学科基础是机器学习、统计学与数据库技术。但是个人认为随着大数据时代的来临,传统数据库技术所起的作用在减弱,因为很多进行的数据挖掘的数据根本不会先被放到数据库中,而是直接通过文件来存储。本书的第二版中虽然增加了时间序列挖掘、图挖掘、社交网络分析、多媒体挖掘等新的内容,但这只是增加了广度,而没有让我们对数据挖掘的核心部分有更深的理解。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 推荐Python数据挖掘课程设计资源,可以参考《Python数据挖掘实战》,这是一本由O'Reilly出版的书籍,里面介绍了数据挖掘机器学习的基本概念,并介绍了如何使用Python进行数据挖掘机器学习的实践。书中还包括大量的实例,例如用Python进行文本挖掘,以及如何使用Python调用机器学习算法。 ### 回答2: 我强烈推荐设计一个基于Python的数据挖掘课程,该课程结合了理论知识与实践应用。以下是一个可能的课程设计方案: 1. 介绍数据挖掘的基本概念和技术:在课程一开始,先向学生介绍数据挖掘的基本概念、技术和应用领域。这包括数据集的获取、预处理、特征选择、模型训练和评估等内容。 2. Python数据分析工具的介绍:在课程中,教授如何使用Python中的常用数据分析和数据挖掘工具,例如Numpy、Pandas、Matplotlib和Scikit-learn等。学生将学会如何使用这些工具进行数据的读取、处理和可视化。 3. 数据预处理和特征工程:介绍数据预处理的重要性和常用方法,如数据清洗、缺失值处理和异常值检测等。同时,还将介绍特征工程的方法,如特征选择、降维和生成新特征等。 4. 数据挖掘算法的介绍和实践:在这一部分,学生将学习常用的数据挖掘算法,例如聚类、分类、回归和关联规则等。课程还将涉及到这些算法的理论原理和实践应用,例如使用Sklearn库中的原生函数来实现这些算法。 5. 模型评估和性能提升:在这一部分,将介绍如何评估和比较不同的模型,并讨论常见的性能指标。此外,还将讨论如何通过调参和模型优化来提升算法的性能。 6. 实践项目:在课程的最后,学生将通过一个实践项目来巩固所学知识。这个项目可以是一个真实世界的数据挖掘问题,学生需要运用所学的算法和技巧来解决问题,并进行结果的评估和展示。 通过这样一个Python数据挖掘课程设计,学生将综合应用Python编程和数据挖掘算法的知识来解决实际问题,提升他们的数据分析和数据挖掘能力。此外,实践项目将帮助学生提升他们的问题解决能力和团队合作能力。 ### 回答3: 我推荐设计一个基于Python的电影推荐系统的数据挖掘课程设计。 首先,学生可以选择一个可用的电影数据集,如IMDB或Movielens数据集。然后,他们可以使用Python中的数据处理库(如Pandas)来读取和清洗数据集。 接下来,学生可以使用数据可视化工具(如Matplotlib)来探索数据集,了解电影的类型、年份、评分等信息的分布情况。 为了建立推荐系统,学生可以采用协同过滤算法。他们可以使用Python中的Scikit-learn库来实现算法,并根据用户之间的相似性和电影之间的相似性来生成推荐列表。 学生还可以尝试其他数据挖掘技术,如聚类或分类算法,来对电影进行分类或预测用户对新电影的评分。 为了评估推荐系统的性能,学生可以将数据集分成训练集和测试集,并使用评估指标如准确率或召回率来评估模型的预测效果。 最后,学生可以将他们的结果和发现以报告的形式呈现出来,并分析推荐系统的优点和不足之处,提出改进的建议。 这个课程设计可以让学生学习到如何使用Python进行数据挖掘任务,同时也了解了推荐系统的基本原理和实践。此外,学生还可以通过项目实践提高编程和数据分析的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值