数据挖掘--模型选择

本文转自:https://blog.csdn.net/qq_20800249/article/details/80046476

名称

假设

/关键

优缺点

模型

策略

算法

感知机

拉格朗日对偶

1.初值不同结果不同

2.无法处理非线性

3.对偶形式将内积存储(Gram矩阵),加速计算

 

 

 


误分类点总数最小

梯度下降

 

KNN

1.k值选择(交叉验证法)

2.距离度量

3.分类决策规则

1.对异常点不敏感

2.不具有显示学习过程(可解释行差)

3.适用于多分类问题

4.计算量大(占内存)

距离度量:p范数(L1、L2)

(各个坐标距离最大值 )

决策规则:多数表决(=经验风险最小化)

 

1.计算与x最近的k个点(Nk)

2.分类规则(多数表决)

3.kd树(适用于训练实例远大于空间维数的搜素)

聚类分析

(无监督)

1.k值选择

2.相似度量(距离)

1.初值敏感

2.异常点敏感

3.kmeans适合球状

4.大数据集伸缩性好,高效,高斯分布效果好

质心:

 

MSE(均方差):

 

K选择:SSE(和方差)

 

选择最小的k

K-means:

1.随机初始化k个质心

2.对所有样本计算x到k的距离,找最近的簇,添加类标记Ci;重新计算质心(均值)

3.重复直到中止(迭代次数、最小平方MSE、簇中心点变化率)

密度聚类、层次聚类

朴素贝叶斯

1.特征条件独立

2.贝叶斯定理

1.小规模表现良好,速度快,参数估计的个数锐减

2.在特征关联性较强的任务性能差

3.适用于多分类

极大似然估计:


贝叶斯估计

(λ=1 拉普拉斯平滑):

 

 

1.学习输入输出联合概率分布

2.求出最大后验概率输出y

回归模型

1.正则化:

L1会引入稀疏性,而L2会充分利用更多的特征

2.LR回归:

1)假设特征与分类结果存在线性关系

2)使用sigmoid函数映射到0-1(非线性映射将远离分类面的点作用减弱)

LR:1适合分类概率的场景

2时间和内存需求高效(分布式数据、在线算法)

3 对于小噪声鲁棒

4.易欠拟合精度不高

5数据特征有缺失或者特征空间很大时表现效果不好

6.必须线性可分

最小二乘:

1.均值回归,异常点敏感,鲁棒性不高

2.存在最优解

 

LR回归(二项):

 

 对数几率:(概率->回归)

 

1.线性回归

 

2.岭回归


3.lasso回归

4.LR回归(极大似然估计,求极大,也可增加L1、L2正则项)

 

1.梯度下降法

2.拟牛顿法(二阶)

SVM

非线性映射

 

1.低泛化误差,易解释

2.只考虑支持向量的影响,对异常敏感,但也剔除冗余

3.大规模训练样本,耗内存占时间

4.多分类问题困难

核技巧:

1. 如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM

2. 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel

3. 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况

 

硬间隔(线性可分):


软间隔(线性不可分):

 

核技巧:

1.将原空间映射到新空间

2.新空间中线性分类

 

多项式核:

高斯核:

(最小间隔最大化)

拉格朗日对偶将minmax->maxmin

便有优化求导得到最优解

硬间隔:

软间隔:

核技巧:

 

解出优化方程

得到相应参数

决策树

1.特征选择

2.决策树生成

3.决策树修剪

1. 数据准备简单,可解释性强

2. 能够同时处理数据型和常规型属性

3. 在相对短的时间内能够对大型数据源做出可行且效果良好的结果

4.适合处理缺失属性样本

5.易过拟合

特征准则—信息增益(ID3):

(熵越大不确定性越大)


特征准则—信息增益比(C4.5):

 (比值解决了偏向取值较多的属性的问题)

特征准则—Gini(CART):

(越小集合D不确定性越小)

 

决策树剪枝:

极小化决策树整体损失,递归回缩,若C(Ta)<=C(Tb),剪枝

 

1.分类:递归选择最优特征

2.回归:最小二乘

1)选择最优切分变量和切分点

 

2)计算每个划分区域相应的输出值

 


提升树

采用加法模型与前向分步算法,同时基函数采用决策树算法,对待分类问题采用二叉分类树,对于回归问题采用二叉回归树

Adboost:

1.低泛化误差

2.易实现,分类准确率高,没太多参数可调

3.对异常点较敏感

GBDT:

1.可用于多有分类和回归(线性/非线性)

2.可筛选特征

3.解决过拟合问题

4.不好并行,复杂度高,不适合高维稀疏特征

5.需要特征归一化

加法模型:

 

前向分部算法:

经验风险最小化:

 

(分类0-1损失,

回归平方损失,拟合残差)

 

参数调优(GBDT):

树个数、树深度、缩放因子、损失函数、数据采样比、特征采样比

Adboost:指数损失(e为误差率)

(分类)

GBDT:对数、平方(残差),0-1,似然损失,CART树(回归),负梯度拟合(在上一轮分类器残差上训练,从而降低偏差)

 

构造特征:(每个类别一棵树)

新特征维度为叶子节点总数,样本落入每颗树的节点为1,其余为0,与RF结合输入效果较好

预测:每个树的预测值与缩放因子相乘求和。分类需转化为(0-1)

样本在每个树的输出f,计算概率


Xgboost:支持线性分类器;模型复杂度作为正则项加到优化目标中;使用二阶导(泰勒展开);自动学习特征缺失样本的分裂向;特征粒度上的并行(特征存储排序);列抽样(降低过拟合);Shrinkage(缩减),相当于学习率

Adboost:

1.初始化权值分布

2.学习基本分类器Gm(x)

3.计算误差率

4.计算Gm系数α

5.更新权值分布(误差率越小树权值越大,误分类样本权值增加)

 

GBDT:

1.初始化弱学习器

 

2.计算负梯度

3.对残差拟合回归树

3.叶子节点拟合


4.得到回归树

集成模型

1.Bagging

2.随机特征

随机森林:

1.难以解释,平均很多树的结果。

2.构造过程长,可以采用多核并行

3.随机性:不易过拟合、较好的抗噪声

4.高维数据,无特征选择,离散连续均可

随机森林:

从d个特征中随机K个生成决策树,若K=d为原始决策树;若k=1为完全随机树,一般令K=logd

 

1.采样T个采样集(有放回),随机抽取含m个特征的采样集

2.基于每个采样集训练一个基学习器

3. 分类问题:由投票表决;回归问题:k个模型预测结果的均值

关于调参:手动搜索、网格搜索、随机搜索、贝叶斯方法(通过计算在已知数据的情况下,哪种模型的后验概率大即选择哪种模型)

更多案例请关注“思享会Club”公众号或者关注思享会博客:http://gkhelp.cn/

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值