统计学习方法 第一章笔记
1.1 统计学习
本书介绍的就是机器学习方法。
第一章主要讲述监督学习方法。监督学习是从标注数据中学习模型的机器学习问题,是统计学习或机器学习的重要组成部分。
监督学习方法主要包括用于()、()与()的方法。这些方法在自然语言处理、信息检索、文本数据挖掘等领域中有着及其广泛的应用。
答案:
监督学习方法主要包括用于分类、标注与回归问题的方法。这些方法在自然语言处理、信息检索、文本数据挖掘等领域中有着及其广泛的应用。
统计学习特点 = 统计机器学习 = 机器学习
统计学习:statistical learning,是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。
统计学习的主要特点是:
- 根基:统计学习以计算机及网络为平台,是建立在计算机及网络上的
- 学科性质:统计学习以数据为研究对象,是数据驱动的学科
- 目的:统计学习的目的是对数据进行预测与分析
- 中心:以方法为中心
- 涉及学科:概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科
统计学习对象: 数据: 变量/变量组: 连续变量/离散变量(本书主要讨论离散变量)
统计学习关于数据的基本假设(前提)是:同类数据具有一定的统计规律性。
同类数据是指具有某种共同性质的数据。例如:英文文章、互联网网页、数据库中的数据等等。
统计学习的目的:对数据进行预测与分析
统计学习总的目标就是考虑学习什么样的模型和如何学习模型。
统计学习的方法:监督学习、无监督学习和强化学习
基于数据构建概率统计模型从而对数据进行预测与分析。
方法总括:从()、()、()的训练数据集合出发,假设数据是________产生的;并且假设要学习的模型属于某个函数的集合,称为_______;应用某个_______,从________中选取一个最优模型,使它对已知的______及未知的______在给定的______下有最优的预测;最优模型的选取由______实现。
统计学习方法包括模型的()、()、()。称其为统计学习方法的三要素。
统计学习方法三要素的简称:()、()、()。
答案:
从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,成为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
统计学习方法包括模型的(假设空间)、(模型选择的准则)、(模型学习的算法)。称其为统计学习方法的三要素。
统计学习方法三要素的简称:(模型)、(策略)、(算法)。
实现统计学习方法的步骤如下:
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对新数据进行预测或分析。
统计学习的研究
统计学习研究一般包括(统计学习方法)、(统计学习理论)以及(统计学习应用)三个方面。统计学习方法的研究旨在();统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。
统计学习的重要性
统计学习学科在科学技术中的重要性总结:
- 统计学习是处理海量数据的有效方法。
- 统计学习是计算机智能化的有效手段。
- 统计学习是计算机科学发展的一个重要组成部分。