对机器学习和数据挖掘的科学定义是这样的:
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
简单地说就是,机器学习和数据库是数据挖掘的基石。
机器学习致力于研究如何通过计算的手段,利用经验来改善自身的性能,而这里的经验指的就是数据。我们研究出了一系列在理论层面上可行的算法,即(learning algorithm),然后将数据集应用到这些算法上,产生学习模型,这个学习模型可以应用到新的数据集上,对新数据集的一些情况进行预测和判断。(典型例子:信用卡偿还的违约与否。)
在这个过程中会遇到很多问题:
1.怎么获取数据集?
2.怎么对获得的数据进行清洗和转换?
3.怎么进行特征选择,删除哪些冗余特征(用到相应的领域知识),怎么进行特征提取(用到多元统计分析的知识(PCA主成分分析,因子分析)),也就是数据的降维处理?
4.怎么对数据类型进行处理(连续数据离散化,连续数据与分类数据二元化),以适用于相应的算法?
5.选择哪些算法合适(目的是进行预测还是聚类;预测的是离散变量(分类)还是连续变量(回归);用于预测的变量是连续的还是离散的,又或者是二元变量)?
6.用算法训练出来的模型好用吗,怎么评估(模型的泛华能力如何&#