统计学习方法概论
1.1统计学习(statistical learning)
- 本书讨论监督学习
1.统计学习的特点
定义:是关于计算机基于数据构建概论统计模型并运用模型对数据进行预测与分析的一门学科。也称为统计机器学习(statistical machine learning)
统计学习:计算机系统通过运用数据及统计方法提高系统性能的机器学习
主要特点:
- 统计学习以计算机及网络为平台,是建立在计算机之上的;
- 统计学习以数据为研究对象,是数据的驱动学科;
- 统计学习的目的是对数据进行预测与分析;
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测;
- 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并在发展中逐步形成独自的理论体系与方法论。
2.统计学习的对象
对象: 数据。从数据出发,提取数据的特征,抽象出数据的模型,发现数据的知识,又回到对数据的分析与预测中去
关于数据的基本假设:同类数据具有一定的统计规律性,这是统计学习的前提
3.统计学习的目的
统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析;
对数据的预测与分析是通过构建统计概论统计模型实现的。
4.统计学习的方法
包括:监督学习(supervised learning),非监督学习(un-),半监督学习(semi-),强化学习(reinforce learning)等
统计学习三要素:模型的假设空间、模型选择的准则及模型学习的算法。简称:模型(model)、策略(strategy)、算法(algorithm)
实现统计学习方法的步骤:
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定学习的策略
- 实现学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
5.统计学习的研究
包括: (1)统计学习方法 (2)统计学习理论 (3)统计学习应用
1.2 监督学习(supervised learnig)
**任务:**学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测
1.2.1 基本概念
1.输入空间(input)/输出空间(output space): 在监督学习中,将输入 / 输出所有可能取值的集合称为输入 / 输出空间 。
2.每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这时,所有特征向量存在的空间称为特征空间(feature space).
- 假设输入空间与特征空间为相同的空间:不予区分
- 假设输入空间与特征空间为不同的空间: 将实例从输入空间映射到特征空间
模型实际上都是定义在特征空间上的。
3.将输入、输出看着时定义在输入(特征)空间与输出空间上的随机变量的取值。
- 输入 / 输出用大写字母表示,输入:X; 输出:Y
- 输入 / 输出的值用小写字母表示,输入取值:x=(x(1),x(2),…,x(n)); 输出取值:y
4.监督学习是从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测,训练集表示为:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T= \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={
(x1,y1),(x2,y2),...,(xN,yN)}输入输出对又称为样本(sample)或样本点
5.根据输入、输出变量的不同类型,对预测任务命名:
- 回归问题:输入与输出均为连续变量的预测问题
- 分类问题:输出变量为有限个离散变量的预测问题
- 标注问题:输入与输出变量均为变量序列的预测问题
标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。
标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。
自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
1.联合概率分布
假设 X,Y ~ 联合概率分布 P ( X , Y ) P(X,Y) P(X,Y); 训练数据、测试数据~iid P ( X , Y ) P(X,Y) P(X,Y)
基本假设: X,Y 具有联合概率分布
2.假设空间
监督学习的目的:学习一个有输入到输出的映射,这一映射由模型来表示
假设空间(hypothesis space): 由输入空间到输出空间的映射的集合
⋅ \cdot ⋅模型可以是概率模型或非概率模型,由条件分布函数 P ( X , Y ) P(X,Y) P(X,Y) 或决策函数 Y = f ( x ) Y=f(x) Y=f(x)表示
1.2.2 问题的形式化
监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测(prediction).
监督学习:训练数据集由人工给出
监督学习两个过程:
- 学习
- 预测
1.3 统计学习三要素
方 法 = 模 型 + 策 略 + 算 法 方法=模型+策略+算法 方法=模型+策略+算法
1.3.2 策略
统计学习目标:从假设空间中选取最优模型
- 损失函数:度量模型一次预测的好坏
- 风险函数:度量平均意义下模型预测的好坏
损失函数(loss function)/代价函数(cost function): 度量错误的程度,是预测值 f ( X ) f(X) f(X)与真实值 Y Y Y的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))
统计中常见的损失函数:
(1) 0-1 损失函数(0-1 loss function)
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 Y = f ( X ) L(Y,f(X))=\left\{ \begin{array}{c} 1,&&Y\neq f(X) \\0&&Y=f(X) \end{array}\right. L(Y,f(X))={
1,0Y̸=f(X)Y=f(X) (2) 平方损失函数(quadratic loss function)
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2 (3)绝对损失函数
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=∣Y−f(X)∣ (4) 对数损失函数 / 对数似然函数
L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-log P(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)
风险函数 / 期望损失(expected loss): 损失函数的期望
R e x p ( f ) =