统计学习方法:(读书笔记)------ 第一章 统计学习方法概论
统计学习方法:(读书笔记)------ 第一章 统计学习方法概论
机器学习和数据挖掘
概述
机器学习相关学术期刊和会议
机器学习和统计学习
什么是统计学习
统计学习是关于计算机基于数据构建概率统计模型并用模型对数据进行预测与分析的一门学科,也被叫做统计机器学习
概述
专业术语
统计学习
实现统计学习方法的步骤
(1)得到一个有限的训练数据集合
(2)确定包含所有可能的模型的假设空间,即学习模型的集合
(3)确定模型选择的准则,即学习的策略
(4)实现求解最优模型的算法,即学习算法
(5)通过学习方法选择最优模型
(6)利用学习的最优模型对新数据进行预测或分析
统计学习三要素
模型
策略
损失函数与风险函数
常用损失函数
经验风险最小化与结构风险最小化
算法
模型评估与模型选择
训练误差与测试误差
过拟合与模型选择
正则化与交叉验证
正则化
模型选择的典型方法是正则化。
在经验风险上加一个正则化项。
交叉验证
另一种常用的模型选择方法
简单交叉验证
S折交叉验证
留一交叉验证
泛化能力
定义
泛化能力是指由该方法学习到的模型对新数据的预测能力,是学习方法本质上重要的性质。
泛化误差
泛化误差上界
监督学习
生成模型与判别模型
分类问题
标注问题