ML21_线性模型_核心知识点 机器学习

  1. 线性模型=用属性的线性组合来进行预测。

  1. 线性模型的优点
    1. 简单
    2. 可解释
    3. 易多层组合成非线性

  1. 线性模型处理离散属性
    1. 有序的–>转化为连续值
    2. 无序的–>转化为多维向量

  1. 最小二乘法=基于最小化均方误差进行模型求解

  1. X T X X^TX XTX不满秩时可以解出多个最优模型,此时根据偏好或者正则化求解

  1. 阶跃函数用于将线性模型的连续值映射成离散值。

  1. 对数几率函数
    1. 思想:用线性模型结果逼近真实标记的对数几率
    2. 优点
      1. 无须假设分布
      2. 可以得到概率
      3. 目标函数任意阶可导,可以采用一般的数值优化方法
    3. 参数求解:y=后验概率–>对数似然–>目标函数–>极值问题

  1. LDA线性判别分析
    1. 特点:有监督降维。对比PCA。
    2. 思路
      1. 训练:求一条直线,使得同类样本投影近,异类样本投影远。
      2. 预测:将样本投影到直线,寻找最近的类。
    3. 数学表示:类内散度矩阵 类间散度矩阵 瑞利商
    4. 对比PCA:适用于有标签的情况。

  1. 多分类问题
    1. OVO
      1. 思路:每两类组成一个分类器
      2. 结果:落入最多的一类
    2. OVR
      1. 思路:一个为正,其余为负。有多少类就有多少个。
      2. 结果:选择置信度最高的。
    3. MVM
      1. 思路:若干个类划为正,其余划为负。
      2. 方法:使用纠错码进行类正负划分。
      3. 结果:距离最近的类。
    4. 方法对比
      1. OVO数据集远小于OVR,训练块;
      2. OVO学习器个数远大于OVR,存储测试开销大。

  1. 类别不平衡问题
    1. 问题描述:正负例数量不接近
    2. 解决思路:再缩放
    3. 要求:训练集是无偏采样(很难实现)
    4. 其他解决方法
      1. 欠采样:放弃多的一类样本
      2. 过采样:重新产生少的一类样本。往往采用插值方法。
      3. 阈值移动:类似再缩放。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值