【22-23 春学期】AI作业1-ML基础

文章介绍了机器学习中的基本概念,包括监督学习与无监督学习的区别,分类与回归的任务,聚类和降维的无监督方法,以及损失函数在模型优化中的作用。同时,阐述了训练集、测试集和验证集的用途,过拟合和欠拟合的问题,以及经验风险和期望风险的概念。
摘要由CSDN通过智能技术生成
  1. 监督学习、无监督学习

监督学习是机器学习中的一种。监督学习的训练数据中要求是被标记好的,标记表示训练数据中的一些数据已经用正确的输出标记。机器通过这个样本去学习一个最优的模型,再利用这个模型将所有的输入映射为对应的输出。

无监督学习的输入数据没有被标记,即没有正确的输出。机器需要根据样本间的相似性,对样本进行分类,试图使类内差距最小化,类间差距最大化。通俗的说,无监督学习不是告诉机器应该怎么做,而是让机器自己去学习应该怎么做。

  1. 分类、回归

分类和回归都是对输入做出预测,并且都是监督学习。不同的是分类是找决策的边界,即分类的结果没有接近,对就是对错就是错,例如判断一张图片是猫还是狗。

回归是为了找到最优拟合,通过回归算法得到的是一条最优拟合线,这个线条可以最好的拟合数据集中的点,例如预测房价。所以分类的结果是离散的而回归的结果是连续的。

  1. 聚类、降维

聚类和降维都是无监督学习的两种算法。聚类是用于寻找数据内在的分布结构。通常需要随机选择重心,通过寻找距离重心的距离,将数据进行分类。例如对新用户进行分类,通常需要将原有的用户进行聚类。

降维主要是为了将高维的数据降低维度,例如将1000个特征降低为100个特征。降维通过最主要的数据维度实现对数据描述。

  1. 损失函数

每一个样本经过模型预测后会得到一个预测值,预测值和真实值之间的差值就是损失。损失值越少证明模型越成功,所以我们可以根据损失函数来更新模型中的参数,使预测值更接近真实值。

  1. 训练集、测试集、验证集

训练集通常是用来训练模型确定参数,相当于老师教学生的过程。

测试集用来评估模最终模型的泛化能力,相当于大考。

验证集模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估,相当于小考。

三个训练集应该是不重叠的,以测验模型真正的优劣。

  1. 过拟合、欠拟合

欠拟合是指模型再训练集、测试集和验证集上都表现不佳的情况。欠拟合通常是由于模型复杂度过低,特征量太少导致的。可以使用模型复杂化,降低正则约束来解决。

过拟合是指模型再训练集上表现很好,而再测试集和验证集上表现不好的情况。过拟合通常是由于模型复杂度过高、样本太少选样方法有误等导致的。可以使用增加训练数据,是模型能够更好的学习数据的一般规律或者使用正则约束来避免训练出来的参数过大使模型过拟合。

  1. 经验风险、期望风险

经验风险来源于训练数据集,训练数据集的平均损失也称为经验风险。经验风险越小,模型再训练集上的表现就越好。

期望风险则针对的是全体数据。也就是已有的数据,未有的数据都包括在内。我们希望模型不仅能够对已有的数据有很好的预测,对未知的数据也能有很好的预测。即泛化能力越强越好。我们的训练数据集越大期望风险也就越接近经验风险。如果训练数据比较少,也可以通过正则化、交叉验证等方法来提高泛化能力。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值