AI面试题

数据分析案例https://zhuanlan.zhihu.com/p/136975705?from_voters_page=true
在这里插入图片描述

1.为什么要对特征做归一化(理解清楚特征归一化所适用的模型场景)
在这里插入图片描述
在这里插入图片描述

2.什么是组合特征?如何处理高维组合特征?(这里的特征组合主要指的是类别特征(Categorical Feature)之间的组合)
在这里插入图片描述
在这里插入图片描述

3.请比较欧式距离与曼哈顿距离?(比较曼哈顿距离和欧式距离的数值特点,并结合一两个具体例子做分析)
在这里插入图片描述

4.为什么一些场景中使用余弦相似度而不是欧式距离(比较余弦相似度和欧式距离的数值特点,并结合一两个具体例子做分析)
在这里插入图片描述

5One-hot的作用是什么?为什么不直接使用数字作为表示(理解清楚并比较One-hot编码和数字编码的特点)
One-hot 主要用来编码类别特征,即采用哑变量(dummy variables) 对类别进行编码。它的作用是避免因将类别用数字作为表示而给函数带来抖动。直接使用数字会给将人工误差而导致的假设引入到类别特征中,比如类别之间的大小关系,以及差异关系等等。

6.在模型评估过程中,过拟合和欠拟合具体指什么现象(如何描述这两个现象)
过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是。欠拟合时候,偏差和方差都比较大,而过拟合时,偏差较小但方差较大。

7.降低过拟合和欠拟合的方法(从多个维度来考虑,比如数据,特征,模型,目标函数等等)
在这里插入图片描述
在这里插入图片描述

8.L1和L2正则先验分别服从什么分布(可根据L1和L2正则项的数学表达式的形式来分析)
L1相当于加入了拉普拉斯分布
L2是高斯分布
L1 的分布容易使得 目标函数只与有限的 L1限制函数在“棱角”上产生交集。这就过滤掉了大部分的解。而L2可能的解就更多。
在这里插入图片描述
此处有错误x应为w
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

9.对于树形结构为什么不需要归一化?(理解清楚特征归一化所适用的模型场景)
决策树的学习过程本质上是选择合适的特征,分裂并构建树节点的过程;而分裂节点的标准是由树构建前后的信息增益,信息增益比以及基尼系数等指标决定的。这些指标与当前特征值的大小本身并无关系。

10.什么是数据不平衡,如何解决?(理解数据不平衡会给模型训练带来什么影响)
在这里插入图片描述

11.逻辑回归相比线性回归,有何异同?(从作用和数学表达式出发来理解它们之间的异同)
在这里插入图片描述

在这里插入图片描述

12.回归问题常用的性能度量指标(归类总结)
在这里插入图片描述
在这里插入图片描述<

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值