数据分析案例https://zhuanlan.zhihu.com/p/136975705?from_voters_page=true
1.为什么要对特征做归一化(理解清楚特征归一化所适用的模型场景)
2.什么是组合特征?如何处理高维组合特征?(这里的特征组合主要指的是类别特征(Categorical Feature)之间的组合)
3.请比较欧式距离与曼哈顿距离?(比较曼哈顿距离和欧式距离的数值特点,并结合一两个具体例子做分析)
4.为什么一些场景中使用余弦相似度而不是欧式距离(比较余弦相似度和欧式距离的数值特点,并结合一两个具体例子做分析)
5One-hot的作用是什么?为什么不直接使用数字作为表示(理解清楚并比较One-hot编码和数字编码的特点)
One-hot 主要用来编码类别特征,即采用哑变量(dummy variables) 对类别进行编码。它的作用是避免因将类别用数字作为表示而给函数带来抖动。直接使用数字会给将人工误差而导致的假设引入到类别特征中,比如类别之间的大小关系,以及差异关系等等。
6.在模型评估过程中,过拟合和欠拟合具体指什么现象(如何描述这两个现象)
过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是。欠拟合时候,偏差和方差都比较大,而过拟合时,偏差较小但方差较大。
7.降低过拟合和欠拟合的方法(从多个维度来考虑,比如数据,特征,模型,目标函数等等)
8.L1和L2正则先验分别服从什么分布(可根据L1和L2正则项的数学表达式的形式来分析)
L1相当于加入了拉普拉斯分布
L2是高斯分布
L1 的分布容易使得 目标函数只与有限的 L1限制函数在“棱角”上产生交集。这就过滤掉了大部分的解。而L2可能的解就更多。
此处有错误x应为w
9.对于树形结构为什么不需要归一化?(理解清楚特征归一化所适用的模型场景)
决策树的学习过程本质上是选择合适的特征,分裂并构建树节点的过程;而分裂节点的标准是由树构建前后的信息增益,信息增益比以及基尼系数等指标决定的。这些指标与当前特征值的大小本身并无关系。
10.什么是数据不平衡,如何解决?(理解数据不平衡会给模型训练带来什么影响)
11.逻辑回归相比线性回归,有何异同?(从作用和数学表达式出发来理解它们之间的异同)
12.回归问题常用的性能度量指标(归类总结)
13.分类问题常用的性能度量指标(归类总结)
14.逻辑回归的损失函数(从极大似然函数出发推导)