A. SVM ???
B. 逻辑回归
线性回归和逻辑回归:一个是回归,一个是分类;相同点:都是用极大似然来建模(线性回归认为误差符合高斯分布,求高斯概率连乘最大化;逻辑回归是真实类别概率最大化)
Multi-class: Softmax回归;Multi-label:建立多个二分类逻辑回归模型即可;
C. 决策树
ID3: 信息增益;
C4.5:信息增益比=信息增益/数据关于分叉条件的熵,分叉越多,分布越大,信息增益比越小;对分叉多的惩罚;
CART: gini系数:两次采样,不采到同一个类别的概率;计算简单,不用求log;
ID3只能处理离散型变量;C4.5和CART树可处理连续型变量;C4.5可分多叉树,CART只分二叉树;
ID3和C4.5不会复用特征,CART树会复用特征;
ID3和C4.5只做分类;CART树可做分类,也可做回归;
ID3对特征缺失值敏感,C4.5和CART树可把缺失值归为某一个分叉;
预剪枝:Early Stop, (深度达到 or 节点样本过少 or 预测准确度提升过少);当前最优,有可能后续分下去会更有,因此有欠拟合风险;
后剪枝:完全的生长这个树(最后每个节点只包含一类样本),然后剪枝;可以一次剪一大枝(不一定是从叶子开始剪),挑<剪枝带来的新分错数/剪掉的节点数>最小的来剪;可以k-folder交叉验证来剪枝,训练集用来生长树,验证集用来剪枝,最后k个剪枝过的树用这k份验证集投票决定哪个最好;