从数据中学习
每个预测学习过程都包括两个主要阶段:(1)从已知样本中学习或估计系统中未知的相关性;(2)用估计得出的相关性为系统将来的输入值预测新的输出。
即归纳和演绎
转导推理:只为训练数据中几个重要的点估计未知函数的输出,而不是建立全局模型。此方法的重要应用是挖掘关联规则。
4.1 学习机器
机器学习结合了人工智能和统计学,一个基本任务是归纳机器学习,它从样本集中获得一般结果,用不同的技术和模型来定型。
4.2 统计学习原理(SLT)
4.3 学习方法的类型
有两种常用的归纳学习方法,叫做:(1)有指导学习(或有老师学习);(2)无指导学习
4.4 常见的学习任务
数据挖掘过程成功的基础是数据的预处理和数据规约方法。下面列举其中的一些技术,来展示在该过程的开始阶段,数据挖掘的设计者有多少方法可以选择:
缩放、标准化、编码、异常点检测和去除、特征选择和构建、数据清洁和净化、数据平整、丢失数据的清以及通过取样进行案例规约。
分类如下:
(1)统计方法,典型技术是贝叶斯推理、对数回归、方差分析(ANOVA)和对数线性模型。
(2)聚类分析,常用技术是分裂算法、凝聚算法、划分聚类和增量聚类。
(3)决策树和决策规则主要是为人工智能所开发的一组归纳学习方法。典型的技术包括:CLS方法、ID3算法、C4.5算及其对应的修建算法。
(4)关联规则提出了一个较新的规则集,包括的算法有购物篮分析、先验算法和WWW路径遍历模式。
(5)人工神经网络,常见的例子是带有反向传播学习和Kohonen网络(自组织特征映射模型)的多层感知机。
(6)遗传算法是一种对解决难优化问题特别有用的方法,常常是数据挖掘算法的一部分。
(7)模糊推理系统基于模糊集和模糊逻辑理论。模糊建模和模糊决策在数据挖掘中非常普遍。
(8)N维可视化方法作为一种标准的数据挖掘方法,虽然使用其技术和工具可以发现有用的信息,但在文献中常常被漏掉。典型的数据挖掘可视化技术是几何
学、基于图标、像素导向和分层技术。
上面列出的数据挖掘和知识发现技术并不完整,其顺序也不代表这些方法在应用上的优先次序。迭代和交互性是这些数据挖掘技术的基本特征。同样,如果读者
有较多的数据挖掘应用经验,就会理解不依靠单个方法的重要性。在数据挖掘这个阶段,标准方法是平行应用几个能完成同一个归纳学习任务的技术。在这种情
况下,对于数据挖掘过程中的每一次迭代,必须估计和比较不同技术的结果。
4.5 支持向量机
支持向量机系统(SVM),其构想包含SRM原则。SVM用于解决分类问题,但最近也开始被应用于回归(例如,预测连续性变量)问题领域中。
支持向量分类(SVC)、支持向量回归(SVR)
SVM是一种监督学习算法,它从有标号训练数据集中建立学习函数。
SVM的分类函数基于决策平面的概念,决策平面定义了样本类之间的决策边界。
证明选择的分类器是最佳的选择,主要思想是:决策边界应该尽量远离两类数据点。
SVM的主要优势进行总结:首先,与其他一些技术不同,在参数数量较少时,训练过程相对容易,最终形成的模型不会是局部最优的。同时,针对高维数
据,SVM方法扩展性相对较好,扩展性体现了分类其复杂性与精度之间的折中。非传统的数据结构(如字符串和树)可以作为SVM的输入样本,该技术不仅能够
应用于分类问题,而且可以应用于预测。SVM的缺点包括计算效率不高并且需要通过实验方法选择“良好的”核函数。