机器学习面试题库：121-130题（13day）_什么分布的峰度是6-CSDN博客

本文链接：https://blog.csdn.net/cui1004/article/details/108172212

机器学习面试题库：121-130题（13day）

在这里插入图片描述
常采用特征选择方法。常见的六种特征选择方法：
1）DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性
2）MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向"低频"的特征词。
相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法就会变得低效。
3）(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。
4）CHI(Chi-square) 卡方检验法
利用了统计学中的"假设检验"的基本思想：首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备则假设：特征词与类别有着很高的关联度。
5）WLLR(Weighted Log Likelihood Ration)加权对数似然
6）WFO（Weighted Frequency and Odds）加权频率和可能性

在这里插入图片描述

K近邻算法主要依靠的是周围的点，因此如果样本过多，那肯定是区分不出来的。选项B：
样本呈团状颇有迷惑性，这里应该指的是整个样本都是呈团状分布，这样kNN就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。
在这里插入图片描述

正态分布：偏度=0，峰度=0
偏度（Skewness）：衡量随机变量概率分布的不对称性；若偏度大于0，则分布右偏，即分布有一条长尾在右；若偏度小于0，则分布为左偏，即分布有一条长尾在左；同时偏度的绝对值越大，说明分布的偏移程度越严重。
峰度（Kurtosis）：研究数据分布陡峭或平滑的统计量；若峰度>0，分布的峰态陡峭（高尖）；若峰度<0，分布的峰态平缓（矮胖）；均匀分布的峰度为-1.2（平缓），指数分布的峰度为6（陡峭）。
在这里插入图片描述

在这里插入图片描述
较大的K意味着更小的偏差（因为训练folds的大小接近整个dataset）和更多的运行时间（极限情况是：留一交叉验证）。当选取K值的时候，我们需要考虑到k-folds 准确度的方差。

使用信息增益作为决策树节点属性选择的标准，由于信息增益在类别值多的属性上计算结果大于类别值少的属性上计算结果，这将导致决策树算法偏向选择具有较多分枝的属性。

在这里插入图片描述
马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法，以卡方分布为基础，表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联系(例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是关联的)。因此马氏距离常用于多元异常值检测。
在这里插入图片描述
逻辑回归是用于分类问题，我们能计算出一个事件/样本的概率；一般来说，逻辑回归对测试数据有着较好的拟合效果；建立逻辑回归模型后，我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。