统计学习方法概论
1.1 统计学习
统计学习(statistics learning):计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析。也称为统计机器学习(statistics machine learning)。
统计学习的特点:
- 以计算机及网络为平台,是建立在计算机及网络之上的;
- 以数据为研究对象,是数据驱动的学科;
- 目的是对数据进行预测与分析;
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
- 是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科;
// 现在我们所说的机器学习,往往是指统计机器学习。
统计学习的对象
数据(data)。
首先呢,统计学习从数据出发,提取数据的特征,抽象出数据中的模型,发现数据中的知识,最终又回到对数据的分析预测中去。
其次,作为统计学习的对象,数据是多样的,它包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。
关于数据的基本假设:同类数据具有一定的统计规律性。
(什么叫“同类数据”:具有某种共同性质的数据,比如英文文章,互联网网页,数据库中的数据等,它们具有统计规律性,所以可以用概率统计方法来进行处理。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律)
统计学习的目的
对数据进行预测与分析。
特别是对未知新数据。
(好处:预测可使计算机更加智能化,使计算机的某些性能得到提高;分析可使人们获取新的知识,给人们带来新的发现。)
如何实现这个目的的呢:通过构建概率统计模型。
统计学习的方法
监督学习(supervised learning)
非监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)
其中,监督学习(supervised learning)下统计学习的方法可概率如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,(这里有两个假设)假设数据是独立分布的;假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使得它对已知训练数据及未知测试数据(teat data)在给定的评价准则下具有最优的预测;这个最优,模型的选取由算法实现。
统计学习方法三要素:
模型(model):模型的假设空间;
策略(strategy):模型选择的准则;
算法(algorithm):模型学习的算法。
实现统计学习方法的步骤:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学