目录
一、常见模型适应的场景的理解
KNN:需要一个特别容易解释的模型的时候。比如需要向用户解释原因的推荐算法。
贝叶斯:需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。可以高效处理高维数据,虽然结果可能不尽如人意。
决策树:它能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,数据分析师希望更好的理解手上的数据的时候往往可以使用决策树。同时它也是相对容易被攻击的分类器。这里的攻击是指人为的改变一些特征,使得分类器判断错误。常见于垃圾邮件躲避检测中。因为决策树最终在底层判断是基于单个条件的,攻击者往往只需要改变很少的特征就可以逃过监测。受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石。
随机森林:数据维度相对低(几十维),同时对准确性有较高要求时。因为不需要很多参数调整就可以达到不错的效果,基本上不知道用什么方法的时候都可以先试一下随机森林。
LR:同样是很多分类算法的基础组件,它的好处是输出值自然地落在0到1之间,并且有概率意义。因为它本质上是一个线性的分类器,所以处理不好特征之间相关的情况。虽然效果一般,却胜在模型清晰,背后的概率学经得住推敲。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。
SVM:在很多数据集上都有优秀的表现。相对来说,SVM尽量保持与样本间距离的性质导致它抗攻击的能力更强。和随机森林一样,这也是一个拿到数据就可以先尝试一下的算法。
神经网络:数据量庞大,参数之间存在内在联系的时候。
隐形马尔可夫(HMM):可以用于序列的预测,可以用来生成序列。
二、AUC、IOU、ROC
TP:正确的肯定数目
FN:漏报,没有找到正确匹配的数目
FP:误报,没有的匹配不正确
TN:正确拒绝的非匹配数目
真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),刻画的是分类器所识别出的 正实例占所有正实例的比例。
假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占所有负实例的比例。
精确度:【在预测为1的情况下,真正为1的概率】
召回率:【在真实为1的情况下,召回(预测)为1的概率】
F1:是精确率和召回率的调和均值 =
三、 过拟合与欠拟合
偏差:训练集误差,方差:验证集误差【 偏差用于描述模型的拟合能力;方差用于描述模型的稳定性】
一、产生过拟合的原因:
(1)样本方面:样本少,噪音大,抽样方法错误(比如样本符合正态分布,却按均分分布抽样,或者样本数据不能代表整体数据的分布)。
(2)模型方面:模型复杂度高,参数多,决策树未剪枝,学习率,权值设置。
二、解决过拟合的方法:
(1)从样本考虑:
1、增加样本数量,对样本进行降维,添加验证数据;2、数据抽样,要符合业务场景;3、清洗噪声数据;
(2)模型和训练过程;
1、控制模型复杂度,优先选择简单的模型,使用模型融合技术;2、利用先验知识,添加正则项。(L1 正则项更容易产生稀疏解,L2正则项更倾向于让参数W趋向于0)3、交叉验证;4、不要过度训练,设置early stopping;5、决策模型进行剪枝操作;6、权重衰减;
三、欠拟合的原因
训练次数不够,模型过于简单;
四、欠拟合的解决办法
四、判别模型和生成模型
判别模型会生成一个表示P(Y|X)的判别函数(或预测模型),
生成模型先计算联合概率p(Y,X)然后通过贝叶斯公式转化为条件概率。
简单来说,在计算判别模型时,不会计算联合概率,而在计算生成模型时,必须先计算联合概率。
常见的判别模型有:KNN、SVM、LR;
常见的生成模型有:朴素贝叶斯,隐马尔可夫模型。
五、 特征处理的方法
参考资料:
https://baijiahao.baidu.com/s?id=1586018185986909021&wfr=spider&for=pc
https://www.cnblogs.com/pinard/category/894692.html
声明:本人从互联网搜集了一些资料整理,由于查找资料太多,好多内容出处不能记得,如有侵权内容,请各位博主及时联系我,我将尽快修改,并注明出处,再次感谢各位广大博主的资料。