机器学习常见知识点梳理
1、算法分类
2、机器学习常见问题
问1:协方差和相关性有什么区别?
答:相关性是协方差的标准化格式。协方差本身很难做比较。例如:如果我们计算工资(¥)和年龄(岁)的协方差,因为这两个变量有不同的度量,所以我们会得到不能做比较的不同的协方差。为了解决这个问题,我们计算相关性来得到一个介于-1和1之间的值,就可以忽略它们各自不同的度量。
问2:你认为把分类变量当成连续型变量会得到一个更好的预测模型吗?
答:为了得到更好的预测,只有在分类变量在本质上是有序的情况下才可以被当做连续型变量来处理。
问3:“买了这个的客户,也买了…”亚马逊的建议是那种算法的结果?
答:这种推荐引擎的基本想法来源于协同过滤。协同过滤算法考虑用于推荐项目的“用户行为”。他们利用的是其他用户的购物行为和针对商品的交易历史记录,评分,选择和购物信息。针对商品的其他用户的行为和偏好用来推荐项目(商品)给新用户。在这中情况下,项目(商品)的特征是未知的。
问4:在K-means或者KNN,我们是用欧氏距离来计算最近的邻居之间的距离,为什么不用曼哈顿距离?
答:我们不用曼哈顿距离,因为它只计算水平或者垂直距离,有维度的限制。另一方面,欧氏距离可以用于任何空间的距离计算问题。因为,数据点可以存在于任何空间,欧式距离是更可行的选择。例如:想象一下国际象棋棋盘,象或者车所有的移动的由曼哈顿距离计算的,因为他们是在各自的水平和垂直方向做的运动。
问5:为什么朴素贝叶斯如此“朴素”?
答:因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知,这个假设在现实世界中是很不真实的,因此说朴素贝叶斯真的很“朴素”。
问6:我们知道校正R2或者F值是用来评估线性回归模型的,那么用什么来评估逻辑回归模型?
答:我们可以使用以下方法:
1,由于逻辑回归是用来预测概率的,我们可以用AUC-ROC曲线以及混淆矩阵来确定其性能。
2,此外,在逻辑回归中类似于校正R2 的指标是AIC。AIC是对模型系数数量惩罚模型的拟合度量。因此,我们更偏爱有最小的AIC的模型。
3,空偏差指的是只有截距项的模型预测的响应。数值越低,模型越好。残余偏差表示由添加自变量的模型预测的响应。数值越低,模型越好。
问7:真阳性率和召回有什么关系?写出方程式。
答:真阳性率 == 召回 他们有共同的公式&