统计机器学习
文章平均质量分 69
石头猿rock
这个作者很懒,什么都没留下…
展开
-
机器学习原理汇总
基于欧式距离的算法,认为两个目标距离越近,相似度越大。步骤:选择k个样本作为初始聚类中心对于每一个样本点,计算到每个聚类中心的距离,并将其分配到距离最小的类别中针对每个类别重新计算它的聚类中心重复上述两个步骤,直到达到终止条件。原创 2022-11-10 22:03:25 · 252 阅读 · 0 评论 -
决策树总结
决策树的学习包括三个步骤:特征选择,决策树的生成,决策树的剪枝。原创 2022-10-25 22:05:17 · 674 阅读 · 0 评论 -
GBDT/xgboost总结
bagging和boosting是模型集成的两种方式,可以将很多弱分类器融合成一个强分类器bagging:每棵树之间不存在依赖关系,可以并行处理,通过投票表决的方式来确定结果boosting:每棵树之间存在依赖关系,各棵树之间是串行的,通过将每棵树的结果累加来决定最终的结果,后面的树在拟合前面结果的残差。如何衡量一颗树很好?以xgboost为例,在构造每棵树的过程中,我们可以计算出目标函数的最小值,然后以这个最小值为准则来递归构建树的每一层节点。原创 2022-09-28 22:30:01 · 649 阅读 · 0 评论 -
机器学习基础梳理/模型评估指标
精确率和召回率是此消彼长的,无法做到双高;如果同时考虑两者,只能找到一个平衡点来兼顾精确率和召回率。当样本不平衡时,用准确率评估会失效。例如正负样本为9:1,模型全都预测成正样本,准确率为90%P-R曲线的纵轴是精确率,横轴是召回率;P-R曲线上的每一个点都代表着在不同的阈值。精确率/查准率:在被预测为正的样本中,预测对的样本的占比。召回率/查全率:在真正为正的样本中,预测对的样本的占比。准确率:在所有样本中,被预测对的样本的占比。可以无视样本不平衡的问题。下的精确率和召回率。原创 2022-09-21 21:37:12 · 445 阅读 · 0 评论 -
训练集,验证集,测试集,泛化误差总结
模型参数包含两类:训练集参数,超参数;我们的工作是让这两类参数都达到最优如果不需要调整模型的超参数,那可以不用验证集;验证集的作用是模拟测试集,我们是在验证集上调参的,如果超参适合验证集,那大概率也适合测试集;如果在训练集上调参,调出的参数是适合训练集的,训练集上的好性能泛化不到测试集(overfitting);验证集和测试集对于模型来说都是未知的;任何来自测试集的反馈都属于作弊;举个形象的例子:训练集可以比作例题,测试集可以比作模拟题,可以刷很多遍,测试集可以比作期末考试,只能做一遍;训练集:参与原创 2022-06-19 18:15:07 · 1634 阅读 · 0 评论 -
高斯分布/概率分布总结
模型的EM训练过程,直观的来讲是这样我们通过观察采样的概率值和模型概率值的接近程度,来判断一个模型是否拟合良好。我们可以通过算法(EM,感知机)来用模型去拟合数据,随着模型的训练,模型参数在不断更新,在这个过程中就是在最大化每个样本的极大似然函数,本质上是在更新新的高斯分布的均值和方差,直到最后收敛,我们可以找到最合适的均值和方差了。如果有两个类别的数据,那么这两个类别的数据分布是不一样的,我们最终要求的是两个高斯分布分别的μ和o。取不同值的概率大小,u表示高斯分布的均值,o代表分布的标准差。...原创 2022-07-14 22:51:05 · 2322 阅读 · 0 评论