那些戳中心巴的数学基础解答

目录

1.用流形解释空间距离

2.残差

3.训练集与测试集数据分布不一致即数据集偏移 (Dataset Shift)?

 4. 非支配排序


1.用流形解释空间距离

参考:流形(Manifold)学习的理解_JaydenQ的博客-CSDN博客_流形manifold

许多传统的降维方法,用欧式距离评价空间中两点的距离,我们仅是看到了三维空间,就用三维坐标系内的尺度去对事物进行评价,总觉得怪怪的。

举例说,地球仪上伦敦到北京的距离应该用软尺测量,而不是直接用洞穿地球仪的一条直线来得到两地的距离。觉得特别贴切。

高维空间有冗余,低维空间没冗余。而流形又具有降维的功能,流形学习的观点:我们所能观察到的数据实际上是由一低维流形映射到高维空间上的,即这些数据所在的空间是“嵌入在高维空间的低维流形”。

其余参考:

流形(Manifold)初步_wangxiaojun911的博客-CSDN博客_manifold数学

对流形(Manifold)的最简单快速的理解_梧桐雪的博客-CSDN博客_manifold数学

 

2.残差

参考:基础知识复习:残差(residuals)是什么 - 知乎 (zhihu.com)

残差就是结果的误差。

扩展   如何表达残差什么是残差方差? - 知乎 (zhihu.com)

简单表述就是均方误差(Mean Squared Error,MSE):真实值与预测值差的平方和的平均值。

另一个诊断图是残差的直方图。 理想情况下,我们希望残差是正态分布的,这意味着模型在两个方向(高和低)上误差是相同的。

tip:回归后需要做残差图判断模型准确性

对于一个有效的回归模型来说,可以细分定义出两个基本组成部分:

Response =(Constant + Predictors)+ Error

另一种说法,那就是:

响应(Response) = 确定性(Deterministic) + 随机性(Stochastic)

因此,正确残差图不仅要体现出随机性(random),还要体现不可预测性(unpredictable)即可

 

3.训练集与测试集数据分布不一致即数据集偏移 (Dataset Shift)

参考:训练集与测试集数据分布不一致_懒编程-二两的博客-CSDN博客

一个具体的例子,比如我现在要预测泰坦尼克号乘客存活率(Kaggle 上的经典题,已经被各路选手将准确率刷爆了),如果训练集的输入特征中,“性别” 这一特征多数是男性,而在测试集里,“性别” 这一特征多数是女性,这便是训练集与测试集上,某特征其数据分布不均。

1.成因:样本选择偏差和环境不平稳

2.校验方法:1)KED分布;2)KS检验;3)直接模型训练对比两者结果

3.处理方式:1.用所有数据进行训练再上线;2.收集新的线上数据测试,如模型较差则弃用

 

 4. 非支配排序

参考:1)什么叫做非支配排序? - 知乎 (zhihu.com)

           2)NSGA-II(二代非支配排序遗传算法) - 知乎 (zhihu.com)

大概意思是,我比你牛逼,我就支配你。

具体实现步骤见参考2):

首先,遍历种群,比自己弱的归到一组组sp,把比自己强的归到一个组,该强组则数量+1,形成第一梯队F1

接着,遍历第一梯队F1,看被它们支配的个体一共被多少个个体支配,形成n个梯队

然后,对同一梯队水平个体判断拥挤水平,拥挤距离越大的越牛逼。

也就是,首先将亲代Pt和子代Qt 的个体放到一个数组为 Rt,对 Rt进行非支配排序,也就是物以类聚地分组,然后将最优的梯队拿出来组成新的亲代(并且在这个过程中计算拥挤距离),但是种群数量有限,所以到了再加一个梯队就超出种群数量的时候,就需要对这个边缘梯队做一个淘汰,这时候拥挤距离这个参数就用上了,它就是用来区分同梯队个体优劣的。

 

 

 

待续……

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值