问题1:决策树有多少种,分别的损失函数是什么?
决策树有多少种,分别的损失函数是什么?决策树有三种:分别为ID3,C4.5,Cart树
ID3损失函数︰
C4.5损失函数∶
Cart树损失函数∶
问题2:决策树的两种剪枝策略分别是什么?
决策树的剪枝基本策略有预剪枝(Pre-Pruning)和后剪枝(Post-Pruning)。
预剪枝核心思想︰
在每一次实际对结点进行进一步划分之前,先采用验证集的数据来验证如果划分是否能提高划分的准确性。如果不能,就把结点标记为叶结点并退出进一步划分﹔如果可以就继续递归生成节点。
后剪枝核心思想︰
后剪枝则是先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来泛化性能提升,则将该子树替换为叶结点。
问题3:信息增益比跟信息增益相比,优势是什么?
以信息增益作为划分训练集的特征选取方案,存在偏向于选取值较多的特征的问题。信息增益比可以解决该问题。
问题4:介绍XdeepFM算法,XdeepFM跟DeepFM算法相比,优势是什么?
上图为xDeepFM的总体结构,有三个分支:Linear(稀疏的01向量作为输入)、DNN(经过embedding的稠密向量作为输入)、CIN(压缩感知层)。
xDeepFM如果去掉CIN分支,就等同于Wide & Deep。
xDeepFM将基于Field的vector-wise思想引入Cross,并且保留了Cross的优势,模型结构也很elegant,实验效果也提升明显。