机器学习中的小数学知识

1、如何通俗易懂地解释「协方差」与「相关系数」的概念:协方差能够表示变量相关性的原因,相关系数可以看成一种剔除了两个变量量纲影响、标准化后的特殊协方差。

2、置信区间理解:当计算出样本均值时如何基于样本均值确定一个区间,使我们以一定置信水平(概率,如95%)相信真实的总体样本均值包含在在这个置信区间内。

3、如何通俗并尽可能详细解释卡尔曼滤波?:模型预测分布和实际测量分布的加权平均,不断迭代。

4、1、L1正则化与L2正则化为什么能够给避免过拟合2、l1 相比于 l2 为什么容易获得稀疏解:结构风险最小化的一种策略,假设模型参数符合某种先验分布。实践中,根据Quaro的data scientist Xavier Amatriain 的经验,实际应用过程中,L1 nrom几乎没有比L2 norm表现好的时候,优先使用L2 norm是比较好的选择。L2对大数,对outlier更敏感。这个可以从二者的假设分布拉普拉斯分布和高斯分布分布图像中观察到。
在这里插入图片描述

5、浅谈「正定矩阵」和「半正定矩阵」请问谁能用易于理解的语言解释下矩阵的正定及半正定?:一个向量经过正定、半正定矩阵的变换后的向量与其本身的夹角小于等于90度。XAX = XY >= 0 (X为任意矩阵,Y为变换后矩阵)。XY=cosθ >= 0为向量内积,表示θ <= 90度。从几何方面理解,可以看成二次函数的高维形式:
在这里插入图片描述
如何判断一个矩阵为正定?
1、顺序主子式全大于0;
2、存在可逆矩阵C使C^TC等于该矩阵;
3、正惯性指数等于n;
4、合同于单位矩阵E(即:规范形为E)
5、标准形中主对角元素全为正;
6、特征值全为正;
7、是某基的度量矩阵。

6、如何理解机器学习和统计中的AUC?AUC计算:从定义方面理解它是FP(假阳率)、TP(真阳率)选择不同阈值画出的ROC曲线的面积;直观点的理解,它表示任取一对正例和负例,其中正例得分大于负例得分的概率,AUC越大,模型效果越好。所以它反映的是一种排序的能力,也就是正例排在负例前面。而且对于类别是否平衡不敏感,可用于评价不平衡数据集。
1、称预测类别为1的为Positive(阳性),预测类别为0的为Negative(阴性)。
2、预测正确的为True(真),预测错误的为False(伪)。

混淆矩阵:
在这里插入图片描述
FP、TP计算:
在这里插入图片描述
AUC和PR曲线区别
**PR曲线的应用场景:**需要根据需求找到对应的precision和recall值。如果偏向precison,那就是在保证recall的情况下提升precision;如果偏向recall,那就是在保证precision的情况下提升recall。比如对于欺诈检测(Fraud Detection),如果要求预测出的潜在欺诈人群尽可能准确,那么就要提高precision;而如果要尽可能多地预测出潜在的欺诈人群,那么就是要提高recall。一般来说,提高二分类模型的分类阈值就能提高precision,降低分类阈值就能提高 recall,这时便可观察PR 曲线,根据自己的需要,找到最优的分类阈值(threshold)。
**ROC曲线和AUC的应用场景:**在二分类模型中正例和负例同等重要的时候,或者当测试数据中正负样本的分布随时间而变化时,需要比较模型的整体性能,适合用ROC曲线评价。
总结一下PR曲线和ROC曲线&AUC的区别:

  1. PR曲线在正负样本比例比较悬殊时更能反映分类器的性能。当正负样本差距不大的情况下,ROC和PR的趋势是差不多的,但是当负样本很多的时候,两者就截然不同了,ROC效果依然看似很好,但是PR上反映效果一般。这就说明对于类别不平衡问题,ROC曲线通常会给出一个过于乐观的效果估计,此时还是用PR曲线更好。
  2. ROC曲线由于兼顾正例与负例,适用于评估分类器的整体性能(通常是计算AUC,表示模型的排序性能);PR曲线则完全聚焦于正例,因此如果我们主要关心的是正例,那么用PR曲线比较好。
  3. ROC曲线不会随着类别分布的改变而改变。然而,这一特性在一定程度上也是其缺点。因此需要根据不用的场景进行选择:比如对于欺诈检测,每个月正例和负例的比例可能都不相同,这时候如果只想看一下分类器的整体性能是否稳定,则用ROC曲线比较合适,因为类别分布的改变可能使得PR曲线发生变化,这种时候难以进行模型性能的比较;反之,如果想测试不同的类别分布对分类器性能的影响,则用PR曲线比较合适。

7、机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?理解 Bias 与 Variance 之间的权衡
从同一分布中取多个数据集,并分别训练模型,则所有模型预测样本x的值,对所有预测值求均值和方差,也就是Variance。显然Variance刻画的是模型忍受数据扰动的能力。另外样本x有着本身的真实标记,这个标记与前面的均值的方差就是Bias。显然Bias刻画的是模型的拟合能力。
在这里插入图片描述
但是通常情况下低Bias和低Variance不可同时所得。如左图(横坐标也可理解为训练程度),在模型训练初期,模型拟合能力不足,此时数据的扰动不足以使模型产生变化,也就是高Bias,低Variance;但随着训练的进行,模型的拟合能力加强,此时数据的些许扰动都能被模型学习到,也就是低Bias,高Variance。当模型过度学习时,此时模型连训练数据的局部特性都学习到,出现过拟合情况。如右图,模型在训练集上的error逐渐减小,代表在训练集上的拟合能力增强;但在测试集上的error却在减小后开始增大,代表模型过度拟合训练集,导致在测试集上出现较大error。
在这里插入图片描述
从上图红色表示真实标记,蓝色分布点表示不同数据集上模型,蓝色分布点越分散,表示Variance越高,模型稳定性不足,;而所有蓝色分布点距离红色越近表示模型的拟合能力越强。
如何理解K-fold与其关系?当K值大的时候,每个fold数据集样本数量少,模型训练不足,拟合能力差, 我们会有更少的Bias(偏差), 更多的Variance。当K值小的时候,样本较多,模型拟合能力强,我们会有更多的Bias(偏差),更少的Variance。

8、决策树离散特征该如何处理:关于sklearn中的决策树是否应该用one-hot编码?Decision Trees机器学习算法中 GBDT 和 XGBOOST 的区别有哪些?GBDT和XGboost介绍结合原PPT理解
在这里插入图片描述

9、数据处理过程中的平滑:为何要进行数据平滑处理?n-gram文法和数据平滑NLP系列学习:数据平滑数据平滑更多的是将一个取值范围很大的数值压缩到一个较小的区域,方便模型的学习,模型也更容易调整到对应的数值,这跟归一化的作用有点类似。比如本来范围0-10000,模型为了预测到10000,就得需要很大的参数,但同时又得预测到0,又需要很小的参数。但如果我们将0-10000压缩到0-1,那么模型只需要很小的调整就能从0到1。NLP领域的平滑更多是为了解决0概率问题。

10、傅里叶分析之掐死教程傅里叶变换
在这里插入图片描述
在这里插入图片描述
11、泰勒公式:如何通俗地解释泰勒公式?使用泰勒公式进行估算时,在不同点有啥区别?
在这里插入图片描述
12、举例说明极大似然与EM算法区别
EM算法存在的意义是什么?EM( expectation-maximization,期望最大化)算法
13、详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
14、最大公约数、最小公倍数质数求解
15、拉格朗日乘数法
16、检索评估指标:MAP NDCG
17、KL-Divergence详解 :正向、反向kl目标函数都可用,关键在于数据的分布来自于p还是q。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值