机器学习篇一之基础篇1

目录

一、常见模型适应的场景的理解

二、AUC、IOU、ROC

三、 过拟合与欠拟合

四、判别模型和生成模型

五、 特征处理的方法


一、常见模型适应的场景的理解

KNN需要一个特别容易解释的模型的时候。比如需要向用户解释原因的推荐算法。

贝叶斯:需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。可以高效处理高维数据,虽然结果可能不尽如人意。

决策树:它能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,数据分析师希望更好的理解手上的数据的时候往往可以使用决策树。同时它也是相对容易被攻击的分类器。这里的攻击是指人为的改变一些特征,使得分类器判断错误。常见于垃圾邮件躲避检测中。因为决策树最终在底层判断是基于单个条件的,攻击者往往只需要改变很少的特征就可以逃过监测。受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石。

随机森林:数据维度相对低(几十维),同时对准确性有较高要求时。因为不需要很多参数调整就可以达到不错的效果,基本上不知道用什么方法的时候都可以先试一下随机森林。

LR:同样是很多分类算法的基础组件,它的好处是输出值自然地落在0到1之间,并且有概率意义。因为它本质上是一个线性的分类器,所以处理不好特征之间相关的情况。虽然效果一般,却胜在模型清晰,背后的概率学经得住推敲。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。

SVM:在很多数据集上都有优秀的表现。相对来说,SVM尽量保持与样本间距离的性质导致它抗攻击的能力更强。和随机森林一样,这也是一个拿到数据就可以先尝试一下的算法。

神经网络:数据量庞大,参数之间存在内在联系的时候。

隐形马尔可夫(HMM):可以用于序列的预测,可以用来生成序列。

二、AUC、IOU、ROC

TP:正确的肯定数目

FN:漏报,没有找到正确匹配的数目

FP:误报,没有的匹配不正确

TN:正确拒绝的非匹配数目

真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),刻画的是分类器所识别出的 正实例占所有正实例的比例。

假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占所有负实例的比例。

https://img-my.csdn.net/uploads/201206/20/1340176083_5411.jpg

精确度:【在预测为1的情况下,真正为1的概率】

召回率:【在真实为1的情况下,召回(预测)为1的概率】

F1:是精确率和召回率的调和均值 =

三、 过拟合与欠拟合

偏差:训练集误差,方差:验证集误差【 偏差用于描述模型的拟合能力;方差用于描述模型的稳定性

一、产生过拟合的原因:

(1)样本方面:样本少,噪音大,抽样方法错误(比如样本符合正态分布,却按均分分布抽样,或者样本数据不能代表整体数据的分布)。    

(2)模型方面:模型复杂度高,参数多,决策树未剪枝,学习率,权值设置。 

二、解决过拟合的方法:

     (1)从样本考虑:

          1、增加样本数量,对样本进行降维,添加验证数据;2、数据抽样,要符合业务场景;3、清洗噪声数据;

     (2)模型和训练过程;

          1、控制模型复杂度,优先选择简单的模型,使用模型融合技术;2、利用先验知识,添加正则项。(L1 正则项更容易产生稀疏解,L2正则项更倾向于让参数W趋向于0)3、交叉验证;4、不要过度训练,设置early stopping;5、决策模型进行剪枝操作;6、权重衰减;

三、欠拟合的原因

       训练次数不够,模型过于简单;

四、欠拟合的解决办法

1)添加多项式特征,2)减少正则化参数

四、判别模型和生成模型

判别模型会生成一个表示P(Y|X)的判别函数(或预测模型),

生成模型先计算联合概率p(Y,X)然后通过贝叶斯公式转化为条件概率。

简单来说,在计算判别模型时,不会计算联合概率,而在计算生成模型时,必须先计算联合概率

常见的判别模型有:KNN、SVM、LR;

常见的生成模型有:朴素贝叶斯,隐马尔可夫模型。

五、 特征处理的方法

参考资料:

https://baijiahao.baidu.com/s?id=1586018185986909021&wfr=spider&for=pc

https://www.cnblogs.com/pinard/category/894692.html


     声明:本人从互联网搜集了一些资料整理,由于查找资料太多,好多内容出处不能记得,如有侵权内容,请各位博主及时联系我,我将尽快修改,并注明出处,再次感谢各位广大博主的资料。


 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值