吃瓜教程｜Task2（阅读西瓜书第3章）

最新推荐文章于 2024-10-08 13:48:11 发布

HWH-

最新推荐文章于 2024-10-08 13:48:11 发布

阅读量763

点赞数

分类专栏：西瓜书文章标签：深度学习面试机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43900236/article/details/121472404

版权

西瓜书专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

一元线性回归

输入的属性数目只有一个，对于离散属性，通过连续化的方式将其转化为连续值。

学得：

请添加图片描述

最小二乘法：基于均方误差最小化来进行模型求解，分别对w、b求偏导，同时令式子为0，可以求到w，b的闭式解。
在这里插入图片描述

多元线性回归

输入的属性数目有多个，同样试图学得：

这里同样利用最小二乘法来对w，b进行估计，有

求导为零可以得到w，b的符号解如下：

在这里插入图片描述

最终得到线性回归模型：

在这里插入图片描述

对数几率回归

又叫作逻辑回归，用来处理分类问题的算法。

相对熵（KL散度）：度量两个分布的差异，其典型使用场景是用来度量理想分布p(x)和模拟分布q(x)之间的差异。

模型：线性模型，输出值的范围为[0, 1]，近似跃阶的单调可微函数

策略：极大似然估计，信息论

算法：梯度下降，牛顿法

找到一个单调可微的“替代”函数，用来替代单位跃阶函数，实现将函数的预测值映射到[0, 1]上面，有：

在这里插入图片描述

利用极大似然法化简有：

在这里插入图片描述

二分类线性判别分析

算法原理：

从集合的角度，让全体训练样本经过投影后：

异类样本的中心尽可能远
同类样本的方差尽可能小

类别不平衡问题（Class-imbalance)

有“再缩放”策略

在这里插入图片描述

当然“再缩放”策略也存在一定问题：主要因为训练集是真实样本总体的无偏估计这个假设往往不成立，也就是说，我们未必能够有效的基于训练集观测几率来推断出真实几率。

现有的技术大致有三种做法：

直接对训练集中的反类样例进行“欠采样”，即去除一些反例使得正、负样例数目接近，然后进行学习。
对训练集中的正类样例进行“过采样”，即增加一些正例使得正、反例数目接近，然后进行学习。
直接基于原始训练集进行学习，但在训练好的分类器进行预测时，将“再缩放”策略嵌入到其决策过程中，称为“阈值移动”。

注意：

“过采样”法不能简单的对初始正样例进行重复采样，否则会导致严重的过拟合。

同样，“欠采样”法也有一定的缺陷，丢弃的反例样本中可能含有重要信息。

参考：

【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导直播合集
《机器学习》周志华等著

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。