【学习笔记】文生图模型——一、基础

本文概述了机器学习的基本概念,包括定义、数据类型的应用、训练目的(拟合模型和预测)、损失函数与期望损失、过拟合与欠拟合的处理以及正则化的两种形式(L1和L2)。重点介绍了梯度下降方法在优化过程中的作用。
摘要由CSDN通过智能技术生成

1.机器学习

        定义:如果机器通过经验E在任务T上提升了指标P,那么称机器对E进行了学习。

        术语:学习过程=训练过程,n维属性=n个特征=输入变量=x,标签=目标变量=输出向量=y,算法=模型=映射


         一组样本=数据集,样本是独立同分布的,一个数据集应划分为训练集和测试集。

        1个实例=1个样本(sample)=1组特征值+对应标签。

例如鸢尾花分类任务,有4个特征(萼片长度,萼片宽度,花瓣长度,花瓣宽度),标签类型有3种('setosa', 'versicolor', 'virginica'),那么其中一个样本可以为(4.1,3.2,1.4,0.2;'virginica')


        1. 连续型数据一般用于回归任务,离散型数据一般用于分类任务

        2.训练的目的是用训练集来拟合一个最佳算法f,使得y=f(x,θ),其中θ为算法可以学习的参数,概率模型通常拟合的是p(y|x)=f(x,θ),用于预测每一类的概率。用测试集来测试算法好坏。

        3.xy的映射集合称作假设空间Vθ具体可以拆分为权重向量w和偏置b

                f为线性时,y=f(x,θ)=w*x+bw转置)

                f为非线性时,y=f(x,θ)=w*Φ(x)+bw转置),Φ(x)也能带可学习的参数

                 *多层感知机为当Φ(x)也为非线性函数并且带可学习的参数

        4.损失函数L=代价函数,用于衡量输出向量y与真实数据y的不一致性。

        5.期望损失=损失函数的期望,由于无法计算,用经验损失近似估算期望损失(大数定理)。

                给定数据集、损失函数L、算法f则可以计算出经验损失。

                要求最优f,则需L使得经验损失最小。

        6.过拟合指模型在训练集上表现佳但测试集上表现糟糕。欠拟合指模型在训练集上误差很大。

        7.为了防止过拟合,一般会在L后面加额外正则项,用于对L中的参数做限制,即拉格朗日约束法,正则项系数越大,正则化作用越明显。

                L1正则化(w中各个元素的绝对值之和)

                L2正则化(w中各个元素的平方和然后再求平方根)。

        8.求最优f时,常用梯度下降法。梯度代表着函数变化最快的方向,跟着梯度方向可以较快找到函数最小值。步长设计不得当会使点震荡,找不到最低点。随机梯度下降/切线法/自适应矩估计,要看懂原理和代码演示,理解什么是鞍点逃离(正在写申报书还没空看!)

        总之只需要知道设计好代价函数→找好n组样本→确定wb的初始值、其他超参数→迭代时自动更新wb以找到使L最小的wb,调参调的就是包括初始值在内的超参数。

  • 15
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值