机器学习学习小结-1.机器学习概述

本文介绍了机器学习的三大任务——回归、分类和聚类,以及它们的区别。监督学习和无监督学习是两种基本的学习方式,前者依赖带标签的样本,后者则不依赖。强化学习通过反馈来优化决策。误差分析中,训练误差和泛化误差是关键,过拟合可通过正则化等方法解决。模型评估常用ROC曲线和AUROC指标,以及留出法、KFold交叉验证和自助法。
摘要由CSDN通过智能技术生成

1.1机器学习三个任务

1. 回归

回归任务是通过若干带有标注的样本数据构造出一个预测模型𝑅(𝑋),使得𝑅(𝑋)的预测输出尽可能符合真实值,并称𝑅(𝑋)为回归模型。

2. 分类

分类任务的目标是通过训练样本构建合适的分类器𝐶(𝑋),完成对目标的分类。

回归或分类机器学习任务的本质就是寻找一个从输入空间到输出空间的映射,并将该映射作为预测模型。

3. 聚类

物以类聚

区别

聚类任务的先验信息为示例,即不带标注的样本
而回归和分类任务的先验信息均为带标注的样本。

1.2三种基本方式(依据先验信息的不同形式)

1. 监督学习
2. 无监督学习

通过比较样本之间的某种联系实现对样本的数据分析

区别

最大区别:样本是否有标记

3. 强化学习

根据反馈信息来调整机器行为以实现自动决策的一种机器学习方式。
强化学习的基本流程

1.3 误差分析

通常需要构造损失函数用于度量模型对于单个样本的输出误差

训练误差:模型在训练集上的误差。

训练误差

泛化误差(测试误差):在新样本上的误差。

泛化误差

模型的泛化误差等于模型输出偏差平方与方差之和
泛化误差
泛化误差和训练误差关系

过拟合
解决方法:
  1. 正则化
  2. 通过增大数据集改善过拟合
  3. dropout—训练过程中丢弃部分神经元

1.4模型评估

1.性能度量指标

混淆矩阵

ROC曲线
𝑅𝑂𝐶曲线下方面积指标称为𝐴𝑈𝐶指标。在一般情况下,模型所对应的𝐴𝑈𝐶值越大,则该模型的平均性能就越好。

2.模型评估方法
留出法

直接从样本数据集𝐷中随机划分出部分数据组成训练样本集𝑆,剩下部分作为测试样本集𝑇用于估计模型的泛化误差。

𝐾折交叉验证法

首先将数据集𝐷等分为𝐾子集𝐷_𝑖 (𝑖=1,2,…,𝐾),然后依次保留其中一个子集作为测试集𝑇,而将其余𝐾−1个子集合进行合并后作为训练集𝑆。

自助法

当𝐷中样本数量较少,通过对𝐷中样本进行可重复随机采样的方式构造训练集和测试集

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值