机器学习常用算法
文章平均质量分 89
沉住气CD
这个作者很懒,什么都没留下…
展开
-
机器学习中常用的性能度量—— ROC 和 AUC
通常我们用泛化能力来评判一个模型的好坏,通俗的说,泛化能力是指一个机器学期算法对新样本(即模型没有见过的样本)的举一反三的能力,也就是学以致用的能力。举个例子,高三的学生在高考前大量的刷各种习题,像五年高考三年模拟、三年高考五年模拟之类的,目的就是为了在高考时拿到一个好的分数,高考的题目就是新题,一般谁也没做过,平时的刷题就是为了掌握试题的规律,能够举一反三、学以致用,这样面对新的题目也能从容应对。这种规律的掌握便是泛化能力,有的同学很聪明,考上名校,很大程度上是该同学的泛化能力好。原创 2024-02-04 14:49:12 · 1570 阅读 · 0 评论 -
CatBoost原理简介
首先会计算数据的统计量。计算某个类别出现的概率,加上超参数,生成新的数值型特征。这一策略要求同一标签数据不能排列在一起(即先全是0之后全是1这种方式),训练之前需要打乱数据集。使用数据的不同排列(实际上是4个)。在每一轮建立树之前,先扔一轮骰子,决定使用哪个排列来生成树。考虑使用类别特征的不同组合。例如颜色和种类组合起来,可以构成类似于blue dog这样的特征。当需要组合的类别特征变多时,CatBoost只考虑一部分combinations。在选择第一个节点时,只考虑选择一个特征,例如A。原创 2024-01-15 16:20:42 · 1398 阅读 · 0 评论 -
LightGBM原理和调参
在进行调参之前应该做好特征工程,确定特征后,更加数据规模和几个模型尝试的结果初步敲定这几个参数,然后使用或来调整max_depthnum_leavessubsamplereg_alphareg_lambda。其中重点要调节max_depth和num_leaves,并注意两者的关系,其次subsample和在[0-1000]之间去进行粗略的调整下即可,reg_alpha和reg_lambda在[0,1000]范围调整,最后比较好的模型这两个参数值不应过大,尤其是reg_alpha,过大需要查看特征。原创 2024-01-10 18:24:33 · 1579 阅读 · 0 评论 -
PCA主成分分析算法
在数据分析中,如果特征太多,或者特征之间的相关性太高,通常可以用PCA来记性降维。比如通过对原有10个特征的线性组合, 我们找出3个主成分,而且足以解释绝大多数的方差,该算法在高维数据集中被广泛应用。下面先给出几个相关的概念。原创 2024-01-09 00:33:29 · 961 阅读 · 0 评论 -
Bagging算法_随机森林Random_Forest
Bagging是并行式集成学习方法最著名的代表,这个名字是由BootstrapAGGregatING而来,顾名思义,该算法由Booststrap与Aggregating两部分组成。欲得到泛化性能强的集成,集成中的个体学习器应尽可能相互独立,一种可能的做法是对训练样本进行采样,产生若干不同的子集,再从每个数据子集中训练处一个学习器。同时,为了获得更好的集成,每个个体学习器不能太差。原创 2023-12-29 13:15:57 · 1051 阅读 · 0 评论 -
生存分析survival_analysis_COXmodel_python实现
生存分析(在工程中也称为可靠性分析)的目标是建立协变量与事件发生时间之间的联系。该算法起源于临床医学研究,往往主要目标是预测死亡时间,即生存。生存分析时一种回归问题(人们想要预测一个连续的值),它与传统回归的不同之处在于,部分训练数据只能被部分观察到(它们被删减了)。例如:考虑一项临床研究,该研究调查了冠心病,时间跨度为1年。如图所示。患者A在3个月后失去随访,无心血管事件记录,患者B在入组4个半月后发生事件,患者D在入组2个月后退出研究,患者E在研究结束前未发生任何事件。原创 2023-12-28 20:24:34 · 908 阅读 · 0 评论 -
朴素贝叶斯法_naive_Bayes
于是朴素贝叶斯算法对条件概率分布作出了条件独立性的假设。这是一个非常强的假设,等于是说用于分类的特征在类确定的条件下都是条件独立的,具体地,条件独立性假设是。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入。由指数级数量的参数,其估计实际是不可能的。朴素贝叶斯算法在进行分类时,对给定的输入。,利用贝叶斯定理求出后验概率最大的输出。维向量的集合,输出空间为类标记集合。,通过学习到的模型计算后验概率分布。由于分母对所有的类都是相同的,所以。原创 2023-12-24 14:11:08 · 954 阅读 · 0 评论 -
聚类算法_kmeans_层次聚类
层次聚类假设类别之间存在层次结构,将样本聚到层次化的类中。分为聚合(agglomerative)聚类(自下而上)、分裂(divisive)聚类(自上而下),每个样本只属于一个类,所以层次聚类属于硬聚类。聚合聚类算法:n个样本组成的样本集合及样本之间的距离;输出:对样本集合的一个层次化聚类。ndijDdijn∗nn算法复杂度On3m,其中m是样本的维数,n是样本个数。K。原创 2023-12-22 19:52:13 · 467 阅读 · 0 评论 -
决策树相关算法_ID3_C45_信息熵_剪枝
决策树算法的主要思想源于Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及由Breiman等人在1984年提出的。原创 2023-12-22 00:03:43 · 1545 阅读 · 0 评论 -
AdaBoost提升方法
提升方法的基本思想是通过改变训练样本的权重学习多个分类器,并将这些线性分类器进行线性组合,提高分类性能。可知五分类样本在每一轮学习后权重会被放大。初始化训练数据的权值分布。构建基本分类器的线性组合。原创 2023-12-20 18:25:15 · 1023 阅读 · 0 评论 -
GBDT-梯度提升决策树
梯度提升决策树(Gradient Boosting Decision Tree, GBDT)是一种基于boosting集成学习思想的加法模型,训练时采用前向分布算法进行贪婪学习,每次迭代都学习一棵CART树来拟合之前t−1棵树的训练样本真实值的残差。原创 2023-12-20 16:36:48 · 1314 阅读 · 0 评论