机器学习_01


本文为<统计学习方法>和<西瓜书>学习笔记_长期更新

概论

  • 监督学习是标注学习中学习模型的机器学习问题

    1. 统计学习(或机器学习,下同)的定义/研究对象/方法
    1. 统计学习的分类:监督/无监督/强化学习
    1. 统计学习三要素:模型/策略/算法
    1. 监督学习的重要概念
    1. 监督学习的应用

统计学习的定义/研究对象/方法

统计学习的定义

概述:基于计算机数据构建概率统计模型运用模型对数据进行预测与分析

统计学习的特点

  1. 基础以计算机及网络为平台
  2. 原理数据驱动的学科
  3. **目的:**对数据进行预测及分析
  4. 手段以方法为中心,构建模型及应用模型
  5. 包含 概率论/统计学/信息论/计算理论/最优化理论/计算机科学

统计学习/机器学习的明确定义

  • 系统通过某个过程改进他的性能,就是学习
  • 计算机系统通过数据及统计方法提高系统性能的机器学习

统计学习的对象

  • 0.数据出发    1.提取数据特征  2.抽象出数据模型  3.发现数据知识(规律)  4.回归数据的分析及预测
  • 数据包含 数字/文字/图像/视频/音频以及他们的组合

前提假设同类数据具有一定的统计规律性 **(同类数据代指具有共同性质的数据)**可以用概率统计方法处理他们

eg:可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律/以变量或变量组表示数据

统计学习的目的

  • 用于对数据的预测及分析通过构建模型的手段
  • 如何使模型能对数据进行准确的预测与分析:
  1. 考虑学习什么样的模型  1.如何学习模型  2.提高学习的效率

统计学习的方法

  • 统计学习方法包括:监督学习/无监督学习/强化学习

def:
0. 从给定的、有限的**训练数据(train)**集合出发(假设数据是独立同分布产生的)

  1. 假设要学习的模型属于某个函数集合(称为假设空间)
  2. 应用某个评价准则,从假设空间中选取一个最优模型(最优模型选取由算法实现)
  3. 统计学习包括(对应的三要素):模型的假设空间(模型)模型选择的准则(策略)模型学习的算法(算法)\

步骤:

  1. 得到一个有限的训练集合
  2. 确定包含所有可能模型的假设空间(学习模型的集合)
  3. 确定模型选择的准则,学习的策略
  4. 实现求解最优模型的算法,即算法
  5. 通过算法选择最优模型
  6. 利用最优模型对新数据进行预测或分析

统计学习的分类

基本分类

监督学习
  • 标注数据学习预测模型的机器学习问题
  • **标注数据:**输入输出的对应关系,预测模型对给定的输入产生相应的输出
  • 本质:学习输入到输出的映射统计学习规律
输入空间/特征空间/输出空间
  • 输入空间/特征空间/输出空间

将输入/输出所有可能值的集合分别成为输入空间/输出空间

  1. 输入与输出空间可以是有限元素的集合,也可以是整个欧式空间
  2. 输入空间与输出空间可以是同一个空间\
  3. 输出空间远远小于输入空间\

每个具体输入都是一个实例(利用特征向量表示),所有特征向量构成了特征空间(其中每一维对应一个特征)

  1. 输入空间是原始数据,特征空间是加工后特征
  2. 输入空间与特征空间可能是相同空间也可能是不同空间
  3. 当输入空间≠特征空间时,将实例从输入空间映射到假设空间
  4. 模型实际定义在特征空间
    具体差距待补充 输入空间与特征空间

输入定义在输入(特征)空间输出定义在输出空间随机变量取值

  • 监督学习空间实例

监督学习从训练数据集合中学习模型,对测试数据进行预测;

  1. 训练数据从输入空间(特征空间)与输出对组成
  2. 测试数据也由输入与输出对组成
  3. 输入输出对称为样本或样本点
    监督学习的分类: **备注:输入与输出变量都可以是连续或者离散的 (0)回归:输入与输出均为连续变量的预测问题(1)分类:输出变量为有限个离散变量(2)标注:**输入/输出均为变量序列的预测问题
联合概率分布

一些假设

  1. 监督学习假设输入/输出空间的随机变量X和Y遵循联合概率分布P(X,Y),或分布密度函数\
  2. 假定联合概率存在(但对学习系统来说未知)
  3. 训练及测试数据独立同分布
  4. 假设数据存在一定的统计规律
假设空间
  1. 假设空间确定了学习的范围
  2. 监督学习就是学习一个由输入到输出的映射(模型表示)
  3. 学习目的就是为了找到这样的最优映射
  4. 映射的集合就是假设空间
问题的形式化
  • 监督利用训练数据学习一个模型,再用模型对测试样本进行预测

主要分为两个部分:学习   预测

  1. 通过学习得到一个模型,表示为条件概率分布(或决策函数),描述为输入与输出随机变量之间的映射关系
  2. 假设训练数据与测试数据独立同分布
  3. 学习系统从训练数据的信息学得模型。
  4. 实例:对一个输入 x x x 通过一个具体的模型 y = f ( x ) y=f(x) y=f(x)可以产生一个输出的 f ( x ) f(x) f(x),而训练数据的为 y y y,对于预测能力较好的模型, y y y f ( x ) f(x) f(x)差距应该足够小
  5. 学习系统通过不断的学习,选择最后的模型
无监督学习

无监督学习是从无标注数据里学习的预测模型;本质是学习数据中的统计规律及潜在结构

  • 输入空间/特征空间/输出空间

输入空间与特征空间与监督学习一致;

输出空间

  1. 每一个输出是对输入的结果分析,由输入的类别、转换、概率表示
  2. 模型可以实现对数据的聚类、降维、概率统计

简介

x x x为输入空间, z z z是隐式结构空间;要学习的模型 z = g ( x ) z=g(x) z=g(x)(条件概率分布),包含所有可能的模型集合称为假设空间;无监督学习旨在选择给定的评价标准最优模型

  • 分为学习与预测系统
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值