文章目录
本文为<统计学习方法>和<西瓜书>学习笔记_长期更新
概论
-
监督学习是标注学习中学习模型的机器学习问题
-
- 统计学习(或机器学习,下同)的定义/研究对象/方法
-
- 统计学习的分类:监督/无监督/强化学习
-
- 统计学习三要素:模型/策略/算法
-
- 监督学习的重要概念
-
- 监督学习的应用
统计学习的定义/研究对象/方法
统计学习的定义
概述:基于计算机数据构建概率统计模型并运用模型对数据进行预测与分析
统计学习的特点
- 基础以计算机及网络为平台
- 原理数据驱动的学科
- **目的:**对数据进行预测及分析
- 手段以方法为中心,构建模型及应用模型
- 包含 概率论/统计学/信息论/计算理论/最优化理论/计算机科学
统计学习/机器学习的明确定义
- 系统通过某个过程改进他的性能,就是学习
- 计算机系统通过数据及统计方法提高系统性能的机器学习
统计学习的对象
- 0.数据出发 1.提取数据特征 2.抽象出数据模型 3.发现数据知识(规律) 4.回归数据的分析及预测
- 数据包含 数字/文字/图像/视频/音频以及他们的组合
前提假设同类数据具有一定的统计规律性 **(同类数据代指具有共同性质的数据)**可以用概率统计方法处理他们
eg:可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律/以变量或变量组表示数据
统计学习的目的
- 用于对数据的预测及分析通过构建模型的手段
- 如何使模型能对数据进行准确的预测与分析:
- 考虑学习什么样的模型 1.如何学习模型 2.提高学习的效率
统计学习的方法
- 统计学习方法包括:监督学习/无监督学习/强化学习
def:
0. 从给定的、有限的**训练数据(train)**集合出发(假设数据是独立同分布产生的)
- 假设要学习的模型属于某个函数集合(称为假设空间)
- 应用某个评价准则,从假设空间中选取一个最优模型(最优模型选取由算法实现)
- 统计学习包括(对应的三要素):模型的假设空间(模型),模型选择的准则(策略),模型学习的算法(算法)\
步骤:
- 得到一个有限的训练集合
- 确定包含所有可能模型的假设空间(学习模型的集合)
- 确定模型选择的准则,学习的策略
- 实现求解最优模型的算法,即算法
- 通过算法选择最优模型
- 利用最优模型对新数据进行预测或分析
统计学习的分类
基本分类
监督学习
- 从标注数据学习预测模型的机器学习问题
- **标注数据:**输入输出的对应关系,预测模型对给定的输入产生相应的输出
- 本质:学习输入到输出的映射统计学习规律
输入空间/特征空间/输出空间
- 输入空间/特征空间/输出空间
将输入/输出所有可能值的集合分别成为输入空间/输出空间
- 输入与输出空间可以是有限元素的集合,也可以是整个欧式空间
- 输入空间与输出空间可以是同一个空间\
- 输出空间远远小于输入空间\
每个具体输入都是一个实例(利用特征向量表示),所有特征向量构成了特征空间(其中每一维对应一个特征)
- 输入空间是原始数据,特征空间是加工后特征
- 输入空间与特征空间可能是相同空间也可能是不同空间
- 当输入空间≠特征空间时,将实例从输入空间映射到假设空间
- 模型实际定义在特征空间
具体差距待补充 输入空间与特征空间
输入定义在输入(特征)空间输出定义在输出空间随机变量取值
- 监督学习空间实例
监督学习从训练数据集合中学习模型,对测试数据进行预测;
- 训练数据从输入空间(特征空间)与输出对组成
- 测试数据也由输入与输出对组成
- 输入输出对称为样本或样本点
监督学习的分类: **备注:输入与输出变量都可以是连续或者离散的 (0)回归:输入与输出均为连续变量的预测问题(1)分类:输出变量为有限个离散变量(2)标注:**输入/输出均为变量序列的预测问题
联合概率分布
一些假设
- 监督学习假设输入/输出空间的随机变量X和Y遵循联合概率分布P(X,Y),或分布密度函数\
- 假定联合概率存在(但对学习系统来说未知)
- 训练及测试数据独立同分布
- 假设数据存在一定的统计规律
假设空间
- 假设空间确定了学习的范围
- 监督学习就是学习一个由输入到输出的映射(模型表示)
- 学习目的就是为了找到这样的最优映射
- 映射的集合就是假设空间
问题的形式化
- 监督利用训练数据学习一个模型,再用模型对测试样本进行预测
主要分为两个部分:学习 预测
- 通过学习得到一个模型,表示为条件概率分布(或决策函数),描述为输入与输出随机变量之间的映射关系
- 假设训练数据与测试数据独立同分布
- 学习系统从训练数据的信息学得模型。
- 实例:对一个输入 x x x 通过一个具体的模型 y = f ( x ) y=f(x) y=f(x)可以产生一个输出的 f ( x ) f(x) f(x),而训练数据的为 y y y,对于预测能力较好的模型, y y y与 f ( x ) f(x) f(x)差距应该足够小
- 学习系统通过不断的学习,选择最后的模型
无监督学习
无监督学习是从无标注数据里学习的预测模型;本质是学习数据中的统计规律及潜在结构
- 输入空间/特征空间/输出空间
输入空间与特征空间与监督学习一致;
输出空间
- 每一个输出是对输入的结果分析,由输入的类别、转换、概率表示
- 模型可以实现对数据的聚类、降维、概率统计
简介
x x x为输入空间, z z z是隐式结构空间;要学习的模型 z = g ( x ) z=g(x) z=g(x)(条件概率分布),包含所有可能的模型集合称为假设空间;无监督学习旨在选择给定的评价标准最优模型
- 分为学习与预测系统