(2008 年 12 月,2009 年 5、12 月,2010 年 3、6、8 月修改,铁人版)
整个研修分两个阶段进行。其中第一阶段为课程学习阶段;主要进行数据挖
掘基础理论、应用软件使用及程序设计两部分内容的学习。第二阶段为专题理论
及应用研究阶段;是在第一阶段基础理论学习的基础上,选定数据挖掘与知识发
现的某一领域进行深入研修,主要进行科学研究和实际应用训练。
大约需要花费两至三年的时间完成研修。可以根据学生的具体情况穿插滚动
式进行。由于预计学生需要补习的数学等方面的知识较多且时间有限,因此采用
非常规的研修方式——直接切入数据挖掘技术主题,对于所需数学知识采取缺什
么补什么的方式来弥补。
第一阶段主要是以下几门(组)课程的学习:
一、数据挖掘导论
大约需要 4 个月时间。
1.学习《数据挖掘导论》课程,完成习题若干。
2.学习使用 Weka【注】或其他应用软件完成至少 4 个课程项目。
部分参考书目
◆ Jiawei Han, M. Kamber, Data Mining: Concepts and Techniques, 2nd Edition
◇ Max Bramer, Principles of Data Mining
◇ D. J. Hand, H. Mannila, P. Smyth, Principles of Data Mining
◇ D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining
◆ Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining
◆ Data Mining: Practical Machine Learning Tools and Techniques, 2nd Edition
◇ Soumen Chakrabarti, Earl Cox, et al., Data Mining: Know It All
◇ S. Sumathi, S.N. Sivanandam,
Introduction to Data Mining and its Applications
二、数据挖掘技术数学基础
大约需要6个月时间(基础为Set Theory, Linear Algebra, and Probability Theory)。
1.学习《模式识别》和研读《Pattern Classification》。
2.研读《Cluster Analysis》第4版。
3.学习 PCA、FA、LDA和ICA 等多元统计分析知识。
4.完成《模式识别》全部习题以及CA、ICA等至少 4 个课程项目。 2
部分参考书目
◆ Duda R. O., Hart P. E., Stork D. G., Pattern Classification, 2nd Edition
◆ Theodoridis S., Koutroumbas K., Pattern Recognition, 4th Edition
◇ S. Theodoridis, A. Pikrakis, K. Koutroumbas, D. Cavouras
Introduction to Pattern Recognition: A MATLAB® Approach
◇ K. Fukunaga, Introduction to Statistical Pattern Recognition, 2nd Edition
◇ A. R. Webb, Statistical Pattern Recognition, 2nd Edition
◇ J. P. Marques de Sá, Pattern Recognition: Concepts, Methods and Applications
◇ Neil H. Timm,
Applied Multivariate Analysis
◇ Wolfgang Härdle and Léopold Simar,
Applied Multivariate Statistical Analysis, 2nd Edition
◇ Narayan C. Giri,
Multivariate Statistical Analysis, 2nd Edition, Revised and Expanded
◆ Aapo Hyvärinen, Juha Karhunen, Erkki Oja, Independent Component Analysis
◇ I. T. Jolliffe, Principal Component Analysis, 2nd Edition
◇ Brian S. Everitt, Cluster Analysis, 4th Edition
三、数据挖掘技术高级课程
大约需要4 个月时间。
1.学习《The Top Ten Algorithms in Data Mining》。
2.研读《Machine Learning》。
3.完成《Machine Learning》课程项目4 个。
部分参考书目
◆ Vapnik V. N., Statistical Learning Theory
◆ Vapnik V. N., The Nature of Statistical Learning Theory, 2nd Edition
◇ Christopher M. Bishop, Pattern Recognition and Machine Learning
◆ Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2nd Edition
The Elements of Statistical Learning: Data Mining, Inference and Prediction
◇ Ethem Alpaydm, Introduction to Machine Learning, 2nd Edition
四、专题(任选)
大约需要 3~4个月时间。
学习有关 DM 理论与技术的发展趋势以及在相关领域的应用。例如文本挖掘、
Web挖掘、图像挖掘和视频挖掘、地理数据挖掘、可视化数据挖掘等;同时继续
研读 SVM、EM 以及 GA、GP 等专题内容的若干本英文原著与学术论文,深入
理解和掌握相关理论与技术。 3
部分参考书目
◇ Geoffrey J. McLachlan, David Peel, Finite Mixture Models
◇ McLachlan G. J., Krishnan T., The EM Algorithm and Extensions, 2nd Edition
◇ Teuvo Kohonen, Self-Organizing Maps, 3rd Edition
◇ Harvey J. Mille, Jiawei Han,
Geographic Data Mining and Knowledge Discovery, 2nd Edition
◇ Antonio Mucherino, Petraq J. Papajorgji, Panos M. Pardalos,
Data Mining in Agriculture
◇ Yee Leung, Knowledge Discovery in Spatial Data
◇ Ingo Steinwart and Andreas Christmann, Support Vector Machines
◆ Nello Cristianini and John Shawe-Taylor,
An Introduction to Support Vector Machines and
Other Kernel-based Learning Methods
◇ Sholom M. Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau,
Text Mining: Predictive Methods for Analyzing Unstructured Information
◇ Michael W. Berry and Jacob Kogan,
Text Mining: Applications and Theory
◇ Ashok N. Srivastava and Mehran Sahami,
Text Mining: Classification, Clustering, and Applications
第二阶段研修任务主要有以下几项内容:
一、选择并确定数据挖掘及其应用的某个领域为主攻方向;
二、阅读文献、撰写综述、制作演示文稿并在一定范围内作研究开题报告;
三、撰写论文(基本要求为能在国内核心刊物上公开发表);
四、申请相应的研究课题或报考博士研究生。
这份建议比较适合数学基础较好,特别是对概率论与数理统计、集合论、模
糊理论、粗糙集、矩阵分析、最优化方法等相关数学分支,以及计算智能感兴趣
的学生。
标记为◆的参考书可能有影印版或中文翻译版。
【注】 Weka软件用 Java编写,也可以采用其他语言的类似软件乃至一些商用软件。
整个研修分两个阶段进行。其中第一阶段为课程学习阶段;主要进行数据挖
掘基础理论、应用软件使用及程序设计两部分内容的学习。第二阶段为专题理论
及应用研究阶段;是在第一阶段基础理论学习的基础上,选定数据挖掘与知识发
现的某一领域进行深入研修,主要进行科学研究和实际应用训练。
大约需要花费两至三年的时间完成研修。可以根据学生的具体情况穿插滚动
式进行。由于预计学生需要补习的数学等方面的知识较多且时间有限,因此采用
非常规的研修方式——直接切入数据挖掘技术主题,对于所需数学知识采取缺什
么补什么的方式来弥补。
第一阶段主要是以下几门(组)课程的学习:
一、数据挖掘导论
大约需要 4 个月时间。
1.学习《数据挖掘导论》课程,完成习题若干。
2.学习使用 Weka【注】或其他应用软件完成至少 4 个课程项目。
部分参考书目
◆ Jiawei Han, M. Kamber, Data Mining: Concepts and Techniques, 2nd Edition
◇ Max Bramer, Principles of Data Mining
◇ D. J. Hand, H. Mannila, P. Smyth, Principles of Data Mining
◇ D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining
◆ Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining
◆ Data Mining: Practical Machine Learning Tools and Techniques, 2nd Edition
◇ Soumen Chakrabarti, Earl Cox, et al., Data Mining: Know It All
◇ S. Sumathi, S.N. Sivanandam,
Introduction to Data Mining and its Applications
二、数据挖掘技术数学基础
大约需要6个月时间(基础为Set Theory, Linear Algebra, and Probability Theory)。
1.学习《模式识别》和研读《Pattern Classification》。
2.研读《Cluster Analysis》第4版。
3.学习 PCA、FA、LDA和ICA 等多元统计分析知识。
4.完成《模式识别》全部习题以及CA、ICA等至少 4 个课程项目。 2
部分参考书目
◆ Duda R. O., Hart P. E., Stork D. G., Pattern Classification, 2nd Edition
◆ Theodoridis S., Koutroumbas K., Pattern Recognition, 4th Edition
◇ S. Theodoridis, A. Pikrakis, K. Koutroumbas, D. Cavouras
Introduction to Pattern Recognition: A MATLAB® Approach
◇ K. Fukunaga, Introduction to Statistical Pattern Recognition, 2nd Edition
◇ A. R. Webb, Statistical Pattern Recognition, 2nd Edition
◇ J. P. Marques de Sá, Pattern Recognition: Concepts, Methods and Applications
◇ Neil H. Timm,
Applied Multivariate Analysis
◇ Wolfgang Härdle and Léopold Simar,
Applied Multivariate Statistical Analysis, 2nd Edition
◇ Narayan C. Giri,
Multivariate Statistical Analysis, 2nd Edition, Revised and Expanded
◆ Aapo Hyvärinen, Juha Karhunen, Erkki Oja, Independent Component Analysis
◇ I. T. Jolliffe, Principal Component Analysis, 2nd Edition
◇ Brian S. Everitt, Cluster Analysis, 4th Edition
三、数据挖掘技术高级课程
大约需要4 个月时间。
1.学习《The Top Ten Algorithms in Data Mining》。
2.研读《Machine Learning》。
3.完成《Machine Learning》课程项目4 个。
部分参考书目
◆ Vapnik V. N., Statistical Learning Theory
◆ Vapnik V. N., The Nature of Statistical Learning Theory, 2nd Edition
◇ Christopher M. Bishop, Pattern Recognition and Machine Learning
◆ Trevor Hastie, Robert Tibshirani, Jerome Friedman, 2nd Edition
The Elements of Statistical Learning: Data Mining, Inference and Prediction
◇ Ethem Alpaydm, Introduction to Machine Learning, 2nd Edition
四、专题(任选)
大约需要 3~4个月时间。
学习有关 DM 理论与技术的发展趋势以及在相关领域的应用。例如文本挖掘、
Web挖掘、图像挖掘和视频挖掘、地理数据挖掘、可视化数据挖掘等;同时继续
研读 SVM、EM 以及 GA、GP 等专题内容的若干本英文原著与学术论文,深入
理解和掌握相关理论与技术。 3
部分参考书目
◇ Geoffrey J. McLachlan, David Peel, Finite Mixture Models
◇ McLachlan G. J., Krishnan T., The EM Algorithm and Extensions, 2nd Edition
◇ Teuvo Kohonen, Self-Organizing Maps, 3rd Edition
◇ Harvey J. Mille, Jiawei Han,
Geographic Data Mining and Knowledge Discovery, 2nd Edition
◇ Antonio Mucherino, Petraq J. Papajorgji, Panos M. Pardalos,
Data Mining in Agriculture
◇ Yee Leung, Knowledge Discovery in Spatial Data
◇ Ingo Steinwart and Andreas Christmann, Support Vector Machines
◆ Nello Cristianini and John Shawe-Taylor,
An Introduction to Support Vector Machines and
Other Kernel-based Learning Methods
◇ Sholom M. Weiss, Nitin Indurkhya, Tong Zhang, Fred J. Damerau,
Text Mining: Predictive Methods for Analyzing Unstructured Information
◇ Michael W. Berry and Jacob Kogan,
Text Mining: Applications and Theory
◇ Ashok N. Srivastava and Mehran Sahami,
Text Mining: Classification, Clustering, and Applications
第二阶段研修任务主要有以下几项内容:
一、选择并确定数据挖掘及其应用的某个领域为主攻方向;
二、阅读文献、撰写综述、制作演示文稿并在一定范围内作研究开题报告;
三、撰写论文(基本要求为能在国内核心刊物上公开发表);
四、申请相应的研究课题或报考博士研究生。
这份建议比较适合数学基础较好,特别是对概率论与数理统计、集合论、模
糊理论、粗糙集、矩阵分析、最优化方法等相关数学分支,以及计算智能感兴趣
的学生。
标记为◆的参考书可能有影印版或中文翻译版。
【注】 Weka软件用 Java编写,也可以采用其他语言的类似软件乃至一些商用软件。