本笔记基于李航老师书籍《统计学习方法》
2022年9月6日第一次阅读
第一节 统计学习相关概念
统计学习(statistical learning) 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。
赫尔伯特西蒙 曾经对“学习”这样定义:”如果一个系统能够通过执行某个过程来改进它的性能,这就是学习。“按照这个观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
统计学习的特点
- 统计学习以计算机及网络为平台,建立在计算机及网络之上;
- 统计学习以数据为研究对象,是数据驱动的学科;
- 统计学习的目的是对数据进行预测和分析;
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测和分析;
- 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机等多个领域的交叉学科,并在发展中逐步形成独自的理论体系与方法论。
统计学习的对象
统计学习的对象无疑是数据data,统计学习从数据出发,抽取数据的特征,抽象出数据的模型,对数据进行分析和预测。
注意这里的数据并非是数字等,不要被局限住,图片视频音频所有可以被计算机识别的都
可以被称为数据。
但是数据可以被统计学习的前提是同类数据具有一定的统计规律性。
统计学习的目的
统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。
统计学习的总目标就是考虑学习什么样的模型和如何学习模型,以使得模型能对数据进行准确的预测与分析。
统计学习的方法
统计学习的方法是基于数据构建统计模型从而对数据及进行预测与分析。主要由监督学习、非监督学习、半监督学习和强化学习等组成。
统计学习方法的三要素是:模型(model),策略(strategy)和算法(algorithm)。
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
统计学习的研究
统计学习的研究一般包括 统计学习方法、统计学习理论 及 统计学习应用 三个方面。
统计学习方法: 统计学习方法的研究旨在开发新的学习方法;
统计学习理论: 旨在探究统计学习方法的有效性与效率,以及统计学习的基本理论问题;
统计学习应用: 主要研究考虑将统计学习方法应用到实际中去,解决世纪问题。
统计学习学科在科学技术中的重要性体现在以下方面:
(1)统计学习是处理海量数据的有效方法;
(2)统计学习是计算机智能化的有效手段;
(3)统计学习是计算机科学发展的一个重要组成部分。