机器学习/数据分析面试题复盘

特征工程

特征工程来源

特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。

选择合适的特征

  • 使用特征方差来过滤选择特征

  • 第二个可以使用的是相关系数。这个主要用于输出连续值的监督学习算法中。我们分别计算所有训练集中各个特征与输出值之间的相关系数,设定一个阈值,选择相关系数较大的部分特征。

  • 第三个可以使用的是假设检验,比如卡方检验。卡方检验可以检验某个特征分布和输出值分布之间的相关性。个人觉得它比比粗暴的方差法好用。如果大家对卡方检验不熟悉,可以参看这篇卡方检验原理及应用,这里就不展开了。在sklearn中,可以使用chi2这个类来做卡方检验得到所有特征的卡方值与显著性水平P临界值,我们可以给定卡方值阈值, 选择卡方值较大的部分特征。

  • 除了卡方检验,我们还可以使用F检验和t检验,它们都是使用假设检验的方法,只是使用的统计分布不是卡方分布,而是F分布和t分布而已。在sklearn中,有F检验的函数f_classif和f_regression,分别在分类和回归特征选择时使用。

  • 第四个是互信息,即从信息熵的角度分析各个特征和输出值之间的关系评分。在决策树算法中我们讲到过互信息(信息增益)。互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。在sklearn中,可以使用mutual_info_classif(分类)和mutual_info_regression(回归)来计算各个输入特征和输出值之间的互信息。

参考https://www.cnblogs.com/pinard/p/9032759.html#:~:text=%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9%E6%98%AF%E7%89%B9%E5%BE%81%E5%B7%A5,%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E7%9A%84%E4%B8%8A%E9%99%90%E3%80%82

降维后多重数据重叠怎么办

去除平均值

计算协方差矩阵

计算协方差矩阵的特征值和特征向量

将特征值从大到小排序

保留最大的N个特征值

将数据转换到上述N个特征向量构建的新空间中

机器学习算法

PCA

过程:

  1. 去除平均值
  2. 计算协方差矩阵
  3. 计算协方差矩阵的特征值和特征向量、
  4. 将特征值从大到小排序
  5. 保留最大的N个特征值
  6. 将数据转换到上述N个特征向量构建的新空间中

决策树

通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则。

决策树的生成往往通过计算信息增益或其他指标,从根结点开始,递归地产生决策树。
这相当于用信息增益或其他准则不断地选取局部最优的特征,或将训练集分割为能够基本正确分类的子集。

ID3算法只有树的生成,所以该算法生成的树容易产生过拟合
C4.5算法与ID3算法相似,进行了改进。C4.5在生成的过程中,用信息增益比来选择特征![在这里插入图片描述](https://img-blog.csdnimg.cn/746874b353c94bababb8b110c471a3d5.png)

步骤原文: https://zhuanlan.zhihu.com/p/139523931
回归树图片原文:https://cloud.tencent.com/developer/article/1813348

原文链接:https://blog.csdn.net/qq_21201267/article/details/104687719

结果方面的

过拟合

它的直观表现是算法在训练集上表现好,但在测试集上表现不好,泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差,在训练时复杂的模型将抽样误差也进行了拟合导致的

偏差和方差?

偏差
在这里插入图片描述方差
在这里插入图片描述

在这里插入图片描述原文:https://zhuanlan.zhihu.com/p/38224147

分析指标

分类问题评估指标:

准确率
Accuracy精确率(差准率):(TP+TN)/(TP+TN+FP+FN) 
Precision召回率(查全率):TP/(TP+FP)
Recall  :TP/(TP+FN)
F1分数 : (2×Precision×Recall)/(Precision+Recall) 
ROC曲线 : 
AUC曲线

回归问题评估指标:

MAE
MSE
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值