ML21_线性模型_核心知识点机器学习

最新推荐文章于 2024-09-13 23:54:45 发布

Roswellii

最新推荐文章于 2024-09-13 23:54:45 发布

阅读量597

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/roswellnotfound/article/details/122189034

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

                    
                    线性模型=用属性的线性组合来进行预测。
 
线性模型的优点 
  简单
可解释
易多层组合成非线性
 
线性模型处理离散属性 
  有序的–>转化为连续值
无序的–>转化为多维向量
 
最小二乘法=基于最小化均方误差进行模型求解
 
           X 
          
           T 
          
          X 
         
         X^TX 
        
     XTX不满秩时可以解出多个最优模型，此时根据偏好或者正则化求解
 
阶跃函数用于将线性模型的连续值映射成离散值。
 
对数几率函数 
  思想：用线性模型结果逼近真实标记的对数几率
优点 
    无须假设分布
可以得到概率
目标函数任意阶可导，可以采用一般的数值优化方法
 
参数求解：y=后验概率–>对数似然–>目标函数–>极值问题
 
LDA线性判别分析 
  特点：有监督降维。对比PCA。
思路 
    训练：求一条直线，使得同类样本投影近，异类样本投影远。
预测：将样本投影到直线，寻找最近的类。
 
数学表示：类内散度矩阵 类间散度矩阵 瑞利商
对比PCA：适用于有标签的情况。
 
多分类问题 
  OVO 
    思路：每两类组成一个分类器
结果：落入最多的一类
 
OVR 
    思路：一个为正，其余为负。有多少类就有多少个。
结果：选择置信度最高的。
 
MVM 
    思路：若干个类划为正，其余划为负。
方法：使用纠错码进行类正负划分。
结果：距离最近的类。
 
方法对比 
    OVO数据集远小于OVR，训练块；
OVO学习器个数远大于OVR，存储测试开销大。
 
类别不平衡问题 
  问题描述：正负例数量不接近
解决思路：再缩放
要求：训练集是无偏采样（很难实现）
其他解决方法 
    欠采样：放弃多的一类样本
过采样：重新产生少的一类样本。往往采用插值方法。
阈值移动：类似再缩放。