吃瓜教程|Task2(阅读西瓜书第3章)

一元线性回归

输入的属性数目只有一个,对于离散属性,通过连续化的方式将其转化为连续值。

学得:

请添加图片描述

最小二乘法:基于均方误差最小化来进行模型求解,分别对w、b求偏导,同时令式子为0,可以求到w,b的闭式解。
在这里插入图片描述
在这里插入图片描述

多元线性回归

输入的属性数目有多个,同样试图学得:

这里同样利用最小二乘法来对w,b进行估计,有

求导为零可以得到w,b的符号解如下:

在这里插入图片描述

最终得到线性回归模型:

在这里插入图片描述

对数几率回归

又叫作逻辑回归,用来处理分类问题的算法。

相对熵(KL散度):度量两个分布的差异,其典型使用场景是用来度量理想分布p(x)和模拟分布q(x)之间的差异。

模型:线性模型,输出值的范围为[0, 1],近似跃阶的单调可微函数

策略:极大似然估计,信息论

算法:梯度下降,牛顿法

找到一个单调可微的“替代”函数,用来替代单位跃阶函数,实现将函数的预测值映射到[0, 1]上面,有:

在这里插入图片描述

利用极大似然法化简有:

在这里插入图片描述

二分类线性判别分析

算法原理:

从集合的角度,让全体训练样本经过投影后:

  1. 异类样本的中心尽可能远
  2. 同类样本的方差尽可能小

类别不平衡问题(Class-imbalance)

有“再缩放”策略

在这里插入图片描述

当然“再缩放”策略也存在一定问题:主要因为训练集是真实样本总体的无偏估计这个假设往往不成立,也就是说,我们未必能够有效的基于训练集观测几率来推断出真实几率。

现有的技术大致有三种做法:

  1. 直接对训练集中的反类样例进行“欠采样”,即去除一些反例使得正、负样例数目接近,然后进行学习。
  2. 对训练集中的正类样例进行“过采样”,即增加一些正例使得正、反例数目接近,然后进行学习。
  3. 直接基于原始训练集进行学习,但在训练好的分类器进行预测时,将“再缩放”策略嵌入到其决策过程中,称为“阈值移动”。

注意

“过采样”法不能简单的对初始正样例进行重复采样,否则会导致严重的过拟合。

同样,“欠采样”法也有一定的缺陷,丢弃的反例样本中可能含有重要信息。

参考:

  1. 【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集
  2. 《机器学习》周志华等著
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值