2020 机器学习知识点记录

本文深入探讨了机器学习中的关键概念,包括距离与范数、判别模型与生成模型的区别,以及线性函数在分类与回归问题中的应用。进一步解析了目标函数与损失函数的关系,函数间隔与几何间隔的概念,并讨论了机器学习中联合概率分布的未知性与结构化风险的处理方法。
摘要由CSDN通过智能技术生成

知识点(已解决)

  1. 距离、范数
    欧氏距离——L2
    曼哈顿距离——L1
  2. 判别模型、生成模型
    判别模型舍弃了繁文缛节,直接利用 y= f(x) 或者 p(y|x)进行建模(其实这两者实质上是一个意思),学习不同类别之间的差异,从而寻得分类超平面;
    生成模型一丝不苟,通过对联合概率分布p(x,y)建模,利用它的得到条件概率 p(y|x),从而进行分类,他并没有学到不同类别的差别,而是专注于学习同类的共性,所以并没有去学习分类超平面。
  3. 线性函数 - 分类问题、回归问题
    线性函数,可用于回归,例如线性回归;线性模型也可用于分类,比如 LR、SVM(需要一个非线性的转换)
  4. 线性函数 - 符号函数、决策函数
    符号函数之类函数,其作用在于引入非线性,将实值输出变为离散的标签,将用于用于回归问题的线性模型转化为可以用于分类问题的模型。
  5. 目标函数、损失函数
    没有正则项,目标函数 = 损失函数;
    有正则项,目标函数 = 损失函数 + 正则项
  6. 函数间隔、几何间隔
    margin = yf(x) = 函数间隔

更多(待反复读)

  1. 机器学习

了解得到 联合概率的未知性结构化风险的由来:

  • 联合概率分布

    监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数或者分布密度函数。但是在学习过程中,假定这个联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。

  • 结构化风险
    学习的目标就是选择期望风险最小的模型。但是由于联合分布P(X,Y)是未知的,所以期望风险不能直接计算,但是如果你知道了联合分布那么也就不需要学习了,因为可以根据联合分布来求出条件概率分布。所以我们只能根据大数定理,当数据量足够大时用训练数据级的平均损失(经验损失)来估算期望风险。
    R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_{i},f(x_{i})) Remp(f)=N1i=1NL(yi,f(xi))

这样我们就可以用经验风险估计期望风险,这样通过求解经验风险最小化来找到最优的模型,这是有一个前提:样本量足够大或者无穷。如果当数据量不足或者较少时,怎么去处理这个问题?经验风险最小化和结构风险最小化

m i n R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) min {R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_{i},f(x_{i}))} minRemp(f)=N1i=1NL(yi,f(xi))

当样本数量足够小时,经验风险最小化的效果未必就很好,会产生过拟合的现象,泛化能力差。该模型只对训练数据产生很好的效果,在新样本分析和预测时很差。为了防止过拟合的出现,我们引入了结构风险最小化或者正则化,对模型复杂度进行了罚项。
结构风险

R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_{i},f(x_{i}))+\lambda J(f) Remp(f)=N1i=1NL(yi,f(xi))+λJ(f)
复杂度或者正则化表示了对模型的惩罚,具体惩罚如下

λ ≥ 0 \lambda \geq 0 λ0是系数,用以权衡经验分享和模型复杂度,结构风险小需要经验风险和模型复杂度同时小,这样可以有效的防止过拟合现象。

所以求解的最优模型是:

m i n 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) min\frac{1}{N}\sum_{i=1}^N L(y_{i},f(x_{i}))+\lambda J(f) minN1i=1NL(yi,f(xi))+λJ(f)

  1. 特征空间
    了解到 图像数据的特征表示与文本数据特征的特征表示”异曲同工“——bag of words。

  2. 表示学习、欧式以外的空间
    欧式空间?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值