机器学习篇一之基础篇1

Easy.miclover

于 2018-09-26 19:39:31 发布

阅读量350

点赞数

分类专栏：面试总结机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miclover_feng/article/details/82858016

版权

面试总结同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

目录

一、常见模型适应的场景的理解

二、AUC、IOU、ROC

三、过拟合与欠拟合

四、判别模型和生成模型

五、特征处理的方法

一、常见模型适应的场景的理解

KNN：需要一个特别容易解释的模型的时候。比如需要向用户解释原因的推荐算法。

贝叶斯：需要一个比较容易解释，而且不同维度之间相关性较小的模型的时候。可以高效处理高维数据，虽然结果可能不尽如人意。

决策树：它能够生成清晰的基于特征(feature)选择不同预测结果的树状结构，数据分析师希望更好的理解手上的数据的时候往往可以使用决策树。同时它也是相对容易被攻击的分类器。这里的攻击是指人为的改变一些特征，使得分类器判断错误。常见于垃圾邮件躲避检测中。因为决策树最终在底层判断是基于单个条件的，攻击者往往只需要改变很少的特征就可以逃过监测。受限于它的简单性，决策树更大的用处是作为一些更有用的算法的基石。

随机森林：数据维度相对低（几十维），同时对准确性有较高要求时。因为不需要很多参数调整就可以达到不错的效果，基本上不知道用什么方法的时候都可以先试一下随机森林。

LR：同样是很多分类算法的基础组件，它的好处是输出值自然地落在0到1之间，并且有概率意义。因为它本质上是一个线性的分类器，所以处理不好特征之间相关的情况。虽然效果一般，却胜在模型清晰，背后的概率学经得住推敲。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。

SVM：在很多数据集上都有优秀的表现。相对来说，SVM尽量保持与样本间距离的性质导致它抗攻击的能力更强。和随机森林一样，这也是一个拿到数据就可以先尝试一下的算法。

神经网络：数据量庞大，参数之间存在内在联系的时候。

隐形马尔可夫（HMM）：可以用于序列的预测，可以用来生成序列。

二、AUC、IOU、ROC

TP:正确的肯定数目

FN:漏报，没有找到正确匹配的数目

FP:误报，没有的匹配不正确

TN:正确拒绝的非匹配数目

真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN)，刻画的是分类器所识别出的正实例占所有正实例的比例。

假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)，计算的是分类器错认为正类的负实例占所有负实例的比例。

精确度：【在预测为1的情况下，真正为1的概率】

召回率：【在真实为1的情况下，召回（预测）为1的概率】

F1：是精确率和召回率的调和均值 =

三、过拟合与欠拟合

偏差：训练集误差，方差：验证集误差【 偏差用于描述模型的拟合能力；方差用于描述模型的稳定性】

一、产生过拟合的原因：

（1）样本方面：样本少，噪音大，抽样方法错误（比如样本符合正态分布，却按均分分布抽样，或者样本数据不能代表整体数据的分布）。

（2）模型方面：模型复杂度高，参数多，决策树未剪枝，学习率，权值设置。　

二、解决过拟合的方法：

（1）从样本考虑：

1、增加样本数量，对样本进行降维，添加验证数据；2、数据抽样，要符合业务场景；3、清洗噪声数据；

（2）模型和训练过程；

1、控制模型复杂度，优先选择简单的模型，使用模型融合技术；2、利用先验知识，添加正则项。（L1 正则项更容易产生稀疏解，L2正则项更倾向于让参数W趋向于0）3、交叉验证；4、不要过度训练，设置early stopping；5、决策模型进行剪枝操作；6、权重衰减；

三、欠拟合的原因

训练次数不够，模型过于简单；

四、欠拟合的解决办法

1）添加多项式特征，2）减少正则化参数

四、判别模型和生成模型

判别模型会生成一个表示P(Y|X)的判别函数（或预测模型），

生成模型先计算联合概率p(Y,X)然后通过贝叶斯公式转化为条件概率。

简单来说，在计算判别模型时，不会计算联合概率，而在计算生成模型时，必须先计算联合概率。

常见的判别模型有：KNN、SVM、LR；

常见的生成模型有：朴素贝叶斯，隐马尔可夫模型。

五、特征处理的方法

参考资料：

https://baijiahao.baidu.com/s?id=1586018185986909021&wfr=spider&for=pc

https://www.cnblogs.com/pinard/category/894692.html

声明：本人从互联网搜集了一些资料整理，由于查找资料太多，好多内容出处不能记得，如有侵权内容，请各位博主及时联系我，我将尽快修改，并注明出处，再次感谢各位广大博主的资料。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。