名称 | 假设 /关键 | 优缺点 | 模型 | 策略 | 算法 |
感知机 | 拉格朗日对偶 | 1.初值不同结果不同 2.无法处理非线性 3.对偶形式将内积存储(Gram矩阵),加速计算 |
|
误分类点总数最小 | 梯度下降
|
KNN | 1.k值选择(交叉验证法) 2.距离度量 3.分类决策规则 | 1.对异常点不敏感 2.不具有显示学习过程(可解释行差) 3.适用于多分类问题 4.计算量大(占内存) | 距离度量:p范数(L1、L2) (各个坐标距离最大值 ) | 决策规则:多数表决(=经验风险最小化)
| 1.计算与x最近的k个点(Nk) 2.分类规则(多数表决) 3.kd树(适用于训练实例远大于空间维数的搜素) |
聚类分析 (无监督) | 1.k值选择 2.相似度量(距离) | 1.初值敏感 2.异常点敏感 3.kmeans适合球状 4.大数据集伸缩性好,高效,高斯分布效果好 | 质心:
| MSE(均方差):
K选择:SSE(和方差)
选择最小的k | K-means: 1.随机初始化k个质心 2.对所有样本计算x到k的距离,找最近的簇,添加类标记Ci;重新计算质心(均值) 3.重复直到中止(迭代次数、最小平方MSE、簇中心点变化率) 密度聚类、层次聚类 |
朴素贝叶斯 | 1.特征条件独立 2.贝叶斯定理 | 1.小规模表现良好,速度快,参数估计的个数锐减 2.在特征关联性较强的任务性能差 3.适用于多分类 | 极大似然估计: 贝叶斯估计 (λ=1 拉普拉斯平滑):
|
| 1.学习输入输出联合概率分布 2.求出最大后验概率输出y |
回归模型 | 1.正则化: L1会引入稀疏性,而L2会充分利用更多的特征 2.LR回归: 1)假设特征与分类结果存在线性关系 2)使用sigmoid函数映射到0-1(非线性映射将远离分类面的点作用减弱) | LR:1适合分类概率的场景 2时间和内存需求高效(分布式数据、在线算法) 3 对于小噪声鲁棒 4.易欠拟合精度不高 5数据特征有缺失或者特征空间很大时表现效果不好 6.必须线性可分 最小二乘: 1.均值回归,异常点敏感,鲁棒性不高 2.存在最优解
| LR回归(二项):
对数几率:(概率->回归)
| 1.线性回归
2.岭回归 3.lasso回归 4.LR回归(极大似然估计,求极大,也可增加L1、L2正则项)
| 1.梯度下降法 2.拟牛顿法(二阶) |
SVM | 非线性映射
| 1.低泛化误差,易解释 2.只考虑支持向量的影响,对异常敏感,但也剔除冗余 3.大规模训练样本,耗内存占时间 4.多分类问题困难 核技巧: 1. 如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM 2. 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel 3. 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况 |
硬间隔(线性可分): 软间隔(线性不可分):
核技巧: 1.将原空间映射到新空间 2.新空间中线性分类
多项式核: 高斯核: | (最小间隔最大化) 拉格朗日对偶将minmax->maxmin 便有优化求导得到最优解 硬间隔: 软间隔: 核技巧:
| 解出优化方程 得到相应参数 |
决策树 | 1.特征选择 2.决策树生成 3.决策树修剪 | 1. 数据准备简单,可解释性强 2. 能够同时处理数据型和常规型属性 3. 在相对短的时间内能够对大型数据源做出可行且效果良好的结果 4.适合处理缺失属性样本 5.易过拟合 | 特征准则—信息增益(ID3): (熵越大不确定性越大) 特征准则—信息增益比(C4.5): (比值解决了偏向取值较多的属性的问题) 特征准则—Gini(CART): (越小集合D不确定性越小)
| 决策树剪枝: 极小化决策树整体损失,递归回缩,若C(Ta)<=C(Tb),剪枝
| 1.分类:递归选择最优特征 2.回归:最小二乘 1)选择最优切分变量和切分点
2)计算每个划分区域相应的输出值
|
提升树 | 采用加法模型与前向分步算法,同时基函数采用决策树算法,对待分类问题采用二叉分类树,对于回归问题采用二叉回归树 | Adboost: 1.低泛化误差 2.易实现,分类准确率高,没太多参数可调 3.对异常点较敏感 GBDT: 1.可用于多有分类和回归(线性/非线性) 2.可筛选特征 3.解决过拟合问题 4.不好并行,复杂度高,不适合高维稀疏特征 5.需要特征归一化 | 加法模型:
前向分部算法: 经验风险最小化:
(分类0-1损失, 回归平方损失,拟合残差)
参数调优(GBDT): 树个数、树深度、缩放因子、损失函数、数据采样比、特征采样比 | Adboost:指数损失(e为误差率) (分类) GBDT:对数、平方(残差),0-1,似然损失,CART树(回归),负梯度拟合(在上一轮分类器残差上训练,从而降低偏差)
构造特征:(每个类别一棵树) 新特征维度为叶子节点总数,样本落入每颗树的节点为1,其余为0,与RF结合输入效果较好 预测:每个树的预测值与缩放因子相乘求和。分类需转化为(0-1), 样本在每个树的输出f,计算概率 Xgboost:支持线性分类器;模型复杂度作为正则项加到优化目标中;使用二阶导(泰勒展开);自动学习特征缺失样本的分裂向;特征粒度上的并行(特征存储排序);列抽样(降低过拟合);Shrinkage(缩减),相当于学习率 | Adboost: 1.初始化权值分布 2.学习基本分类器Gm(x) 3.计算误差率 4.计算Gm系数α 5.更新权值分布(误差率越小树权值越大,误分类样本权值增加)
GBDT: 1.初始化弱学习器
2.计算负梯度 3.对残差拟合回归树 3.叶子节点拟合 4.得到回归树 |
集成模型 | 1.Bagging 2.随机特征 | 随机森林: 1.难以解释,平均很多树的结果。 2.构造过程长,可以采用多核并行 3.随机性:不易过拟合、较好的抗噪声 4.高维数据,无特征选择,离散连续均可 | 随机森林: 从d个特征中随机K个生成决策树,若K=d为原始决策树;若k=1为完全随机树,一般令K=logd |
| 1.采样T个采样集(有放回),随机抽取含m个特征的采样集 2.基于每个采样集训练一个基学习器 3. 分类问题:由投票表决;回归问题:k个模型预测结果的均值 |
关于调参:手动搜索、网格搜索、随机搜索、贝叶斯方法(通过计算在已知数据的情况下,哪种模型的后验概率大即选择哪种模型)
更多案例请关注“思享会Club”公众号或者关注思享会博客:http://gkhelp.cn/