【吃瓜打卡】task02

【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集
西瓜书《机器学习》+南瓜书《机器学习公式讲解》。

task02 详读西瓜书+南瓜书ch3

线性模型:通过属性的线性组合来进行预测的函数
来源:机器学习
(参考线性代数知识, ω \omega ω x x x可以看成两个列向量,分别表示“权重”和“属性”) ω \omega ω可以直观表示在预测中各属性的重要性(加权)

线性回归

在这里插入图片描述
输入的属性值预先处理:
对于连续值的属性,一般都可以被学习器所用,有时会根据具体的情形进行归一化等
对于离散值的属性:
若属性值之间存在“序关系”,则可以将其转化为连续值,例如:身高属性分为“高”“中等”“矮”,可转化为数值:{1,0.5,0 }。
若属性值之间不存在“序关系”,则通常将其转化为k维向量的形式,例如:“黄瓜”,“西瓜”,“南瓜”可分别转化为三维向量{(1,0,0),(0,1,0),(0,0,1)}。(若对无序的属性连续化,会对后续造成误导)

输入属性只有一个(最小二乘法)

(最简单的情形“最小二乘法”),计算出每个样本预测值与真实值之间的误差并求和,通过最小化均方误差MSE,使用求偏导等于零的方法计算出拟合直线 y = ω x + b y=\omega x+b y=ωx+b的两个参数w和b。
试图找到一条直线,使所有样本到直线的欧式距离(均方误差)之和最小。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

输入属性有多个(多元线性回归)

f ( x i ) = w T x i + b ,  使得  f ( x i ) ≃ y i f\left(\boldsymbol{x}_{i}\right)=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b, \text { 使得 } f\left(\boldsymbol{x}_{i}\right) \simeq y_{i} f(xi)=wTxi+b, 使得 f(xi)yi
在这里插入图片描述
当一个矩阵满秩(=正定=行列式不等于0)时,我们才可能对其求逆,因此需考虑矩阵 X T X X^TX XTX的行列式是否为0,若不为0,则可以直接求出:
在这里插入图片描述
若为0,则需要使用其它的方法进行计算,如正则化。

对数线性回归

在这里插入图片描述
更一般地,“广义线性模型”:更一般地,“广义线性模型”,其中,单调可微函数g(·)称为联系函数。

对数几率回归

针对分类模型,将预测值转化为离散值,引入对数几率函数将预测值投影到0-1之间,从而将线性回归问题转化为二分类问题。
用连续的对数函数来近似表示不连续的单位阶跃函数:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

线性判别分析

线性判别分析(Linear Discriminant Analysis,简称LDA)
在这里插入图片描述
在这里插入图片描述

J越大越好。分类问题转化为最优化求解 ω \omega ω的问题,求解出后,对新的样本进行分类时,只需将该样本点投影到这条直线上,根据与各个类别的中心值进行比较,从而判定出新样本与哪个类别距离最近。利用拉格朗日乘子法求解。
在这里插入图片描述
在这里插入图片描述
可以推广到多分类:若将 ω \omega ω看做一个投影矩阵,LDA可将样本投影到N-1维空间(N为类簇数),通过投影降低样本点的维数,投影的过程使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。

多分类学习

多分类问题常运用“拆分”的策略,将多分类问题拆解为多个二分类问题,训练出多个二分类学习器,最后将多个分类结果进行集成得出结论。最为经典的拆分策略有三种:“一对一”(OvO)、“一对其余”(OvR)和“多对多”(MvM):
OvO:给定数据集D,将这N个类别进行两两配对(一个正类/一个反类),从而产生N(N-1)/2个二分类学习器,在测试阶段,将新样本放入所有的二分类学习器中测试,得出N(N-1)个结果,最终通过投票产生最终的分类结果。
OvR:给定数据集D,每次取出一个类作为正类,剩余的所有类别作为一个反类,从而产生N个二分类学习器,在测试阶段,得出N个结果,若仅有一个学习器预测为正类,则对应的类标作为最终分类结果,若有多个,则考虑置信度最大的。
在这里插入图片描述

MvM:给定数据集D,每次取若干个类作为正类,若干个类作为反类。其中常用的“纠错输出码”(ECOC):①编码,若进行M次划分,则生成M个二分类学习器;②在测试阶段解码,得出M个结果组成一个新的码,最终通过计算距离(可能不同类型)选择距离最小的类别作为最终分类结果。
在这里插入图片描述

类别不平衡问题

分类问题中不同类别的训练样例数目差别很大。常用处理方法有三种:
在训练样本较多的类别中进行“欠采样”。
在训练样本较少的类别中进行“过采样”,例如通过对反例中的数据进行插值,来产生额外的反例。
“阈值移动”:直接基于原数据集进行学习,对预测值进行“再缩放”处理。其中再缩放也是代价敏感学习的基础。
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值