那些戳中心巴的数学基础解答

jianuolala

已于 2023-05-31 11:21:10 修改

阅读量144

点赞数 1

文章标签：机器学习

于 2022-06-08 17:08:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jianuolala/article/details/125188193

版权

目录

1.用流形解释空间距离

3.训练集与测试集数据分布不一致即数据集偏移 (Dataset Shift)？

4. 非支配排序

1.用流形解释空间距离

参考：流形(Manifold)学习的理解_JaydenQ的博客-CSDN博客_流形manifold

许多传统的降维方法，用欧式距离评价空间中两点的距离，我们仅是看到了三维空间，就用三维坐标系内的尺度去对事物进行评价，总觉得怪怪的。

举例说，地球仪上伦敦到北京的距离应该用软尺测量，而不是直接用洞穿地球仪的一条直线来得到两地的距离。觉得特别贴切。

高维空间有冗余，低维空间没冗余。而流形又具有降维的功能，流形学习的观点:我们所能观察到的数据实际上是由一低维流形映射到高维空间上的，即这些数据所在的空间是“嵌入在高维空间的低维流形”。

其余参考：

流形（Manifold）初步_wangxiaojun911的博客-CSDN博客_manifold数学

对流形（Manifold）的最简单快速的理解_梧桐雪的博客-CSDN博客_manifold数学

2.残差

参考：基础知识复习：残差(residuals)是什么 - 知乎 (zhihu.com)

残差就是结果的误差。

扩展如何表达残差什么是残差方差？ - 知乎 (zhihu.com)

简单表述就是均方误差(Mean Squared Error，MSE)：真实值与预测值差的平方和的平均值。

另一个诊断图是残差的直方图。理想情况下，我们希望残差是正态分布的，这意味着模型在两个方向（高和低）上误差是相同的。

tip：回归后需要做残差图判断模型准确性

对于一个有效的回归模型来说，可以细分定义出两个基本组成部分：

Response =（Constant + Predictors）+ Error

另一种说法，那就是：

响应(Response) = 确定性(Deterministic) + 随机性(Stochastic)

因此，正确残差图不仅要体现出随机性(random)，还要体现不可预测性(unpredictable)即可

3.训练集与测试集数据分布不一致即数据集偏移 (Dataset Shift)？

参考：训练集与测试集数据分布不一致_懒编程-二两的博客-CSDN博客

一个具体的例子，比如我现在要预测泰坦尼克号乘客存活率（Kaggle 上的经典题，已经被各路选手将准确率刷爆了），如果训练集的输入特征中，“性别” 这一特征多数是男性，而在测试集里，“性别” 这一特征多数是女性，这便是训练集与测试集上，某特征其数据分布不均。

1.成因：样本选择偏差和环境不平稳

2.校验方法：1）KED分布；2）KS检验；3）直接模型训练对比两者结果

3.处理方式：1.用所有数据进行训练再上线；2.收集新的线上数据测试，如模型较差则弃用

4. 非支配排序

参考：1）什么叫做非支配排序？ - 知乎 (zhihu.com)

2）NSGA-II(二代非支配排序遗传算法) - 知乎 (zhihu.com)

大概意思是，我比你牛逼，我就支配你。

具体实现步骤见参考2）：

首先，遍历种群，比自己弱的归到一组组sp，把比自己强的归到一个组，该强组则数量+1，形成第一梯队F1

接着，遍历第一梯队F1,看被它们支配的个体一共被多少个个体支配，形成n个梯队

然后，对同一梯队水平个体判断拥挤水平，拥挤距离越大的越牛逼。

也就是，首先将亲代Pt和子代Qt 的个体放到一个数组为 Rt，对 Rt进行非支配排序，也就是物以类聚地分组，然后将最优的梯队拿出来组成新的亲代(并且在这个过程中计算拥挤距离)，但是种群数量有限，所以到了再加一个梯队就超出种群数量的时候，就需要对这个边缘梯队做一个淘汰，这时候拥挤距离这个参数就用上了，它就是用来区分同梯队个体优劣的。

待续……

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
那些戳中心巴的数学基础解答

流形空间距离；残差；数据集偏移
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。