![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习理论
strive_1106
这个作者很懒,什么都没留下…
展开
-
各种AUC的计算方式python实现
计算auc指标的方法原创 2022-07-11 22:37:02 · 661 阅读 · 0 评论 -
机器学习:方差(variance)和偏差(bias)
模型误差来源机器学习模型的泛化误差来自于两方面:error=viriance+bias偏差:通过n次采样,每次采样m个训练样本,训练模型,这样可以得到n个模型,每个模型输出的平均值与真实模型的输出之间的差值。方差:通过n次采样,每次采样m个训练样本,训练模型,这样可以得到n个模型,每个模型输出的方差。那么什么情况下偏差大呢,什么情况方差大?假设在1阶,3阶,5阶模型空间上,我们...原创 2018-10-27 22:01:07 · 950 阅读 · 1 评论 -
bagging介绍
之前写过boosting的博客,这篇是关于bagging的。训练bagging采用自助采样(bootstrap sampling)N个样本,有放回随机抽样N次,一次实验大约可以采集到63%样本。如果进行T次实验,得到T笔数据,分别训练一个模型。包外估计(out of bag estimate):对于剩下的37%数据,可以用于validation。预测结果组合采用的策略:分类...原创 2018-12-05 19:01:09 · 2848 阅读 · 3 评论 -
stacking和blending介绍
stacking第一层:n个模型数据量为M,首先把数据分为K份,一般为5,也就是5折;为了方便理解,假设n=3, M=1000。测试集为300对于第一个模型: 在里面进行五折交叉验证,利用其中四折训练,预测另外一折,得到维度为:(200,1) 同时预测测试集,维度(300,1) 五折交叉完后,可以得到维度为:(1000,1)的向量 ...原创 2018-12-05 19:47:23 · 175 阅读 · 0 评论 -
机器学习中的样本不平衡问题
样本不平衡时,如果简单采用准确率来评估模型,比如正负比例为1:99,那么只要简单的把所有样本都判定为负类,准确率都可以达到99%。这显然不合理。有时对少数类错分情况的后果很严重,比如癌症患者被误诊为健康人。所以需要的分类器应该是在不严重损失多数类精度的情况下,在少数类上获得尽可能高的精度。一般对于样本不平衡问题,有两类解决办法。数据层面过采样(over-sampling)直接从少数类样本...原创 2018-12-05 22:21:58 · 466 阅读 · 0 评论 -
特征选择总结
特征属性过多,容易造成维度灾难。选取对学习有用的特征会给模型效果带来提升。特征选择需要考虑确保重要特征不丢失。去除无关特征和冗余特征(即特征之间存在强相关)。过滤式选择(Filter)1. 方差选择法计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。2. 单变量特征选择法 (Univariate feature selection)对于分类问题(y离散),可采用:卡方...原创 2018-12-05 22:22:26 · 631 阅读 · 0 评论 -
评估指标总结
分类问题混淆矩阵真实情况 预测情况 1 0 1 TP FN 0 FP TN 准确率(Accu...原创 2018-12-07 11:14:53 · 242 阅读 · 0 评论 -
boosting,adaboost,boosting tree,gbdt
boostingboosting是ensemble模型家族的一个大分支,另一个分支是以随机森林为代表的bagging模型。boosting的基模型一般是弱学习器,而bagging的基模型一般为强学习器。boosting是串联形式,bagging是并联形式。boosting降低偏差;bagging降低方差。adaboostadaboost是最基本的boosting算法,它是分类算法。弱分...原创 2018-12-03 22:44:48 · 257 阅读 · 0 评论