机器学习
文章平均质量分 83
永胜永胜
nlp工程师
展开
-
随机森林原理及代码
机器学习中有一种大类叫集成学习(Ensemble Learning),集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。集成算法大致可以分为:Bagging,Boosting 和 Stacking 三大类型。机器学习中有两种任务,回归和分类,而随机森林可以同时胜任这两种任务。其中分类任务是对离散值进行预测(比如将一景图像中的植被,建筑,水体等地物类型分类);回归任务是对连续值进行预测(比如根据已有的数据预测明天的气温是多少度,预测明天某基金的价格)。原创 2024-02-27 15:28:57 · 834 阅读 · 0 评论 -
决策树原理及代码
决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。原创 2024-02-27 15:23:34 · 958 阅读 · 0 评论 -
朴素贝叶斯原理及代码
朴素贝叶斯(naive Bayes)算法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。不同于其他分类器,朴素贝叶斯是一种基于概率理论的分类算法;总体来说,朴素贝叶斯原理和实现都比较简单,学习和预测效率较高,是一种经典而常用的分类算法。其中的朴素(naive)是指的对于数据集中的各个特征(feature)都有较强的独立性假设,并未将特征之间的相关性考虑其中。原创 2024-02-27 15:10:25 · 365 阅读 · 0 评论 -
逻辑回归原理及代码
逻辑回归是线性分类器(线性模型)—— 主要用于二分类问题。原创 2023-12-14 10:29:25 · 912 阅读 · 0 评论 -
kmeans算法原理介绍
基本思想 1、选取K个点做为初始聚集的簇心 2、分别计算每个样本点到 K个簇核心的距离(这里的距离一般取欧氏距离或余弦距离),找到离该点最近的簇核心,将它归属到对应的簇 3、所有点都归属到簇之后, M个点就分为了 K个簇。之后重新计算每个簇的重心(平均距离中心),将其定为新的“簇核心”; 4、反复迭代 2 - 3 步骤,直到达到某个中止条件 常用的中止...原创 2020-04-14 23:17:01 · 10766 阅读 · 1 评论 -
支持向量机松弛变量的理解
1,线性可分,即能找到超平面,对于硬间隔支持向量机2,部分点不可分,总体近似可分,近似线性可分,对应软间隔支持向量机3,线性不可分,需要用到核函数软间隔支持向量机要加个松弛变量ξ。我们都知道,硬间隔满足,yi * ( wi * x + b )≥1,这是函数间隔,是几何间隔的||w|| 倍。由于一些点出现在两条线的间隔内部,函数间隔的约束条件不满足,所以引入松弛变量ξ,使yi * ( w...原创 2020-03-26 21:45:10 · 2263 阅读 · 1 评论 -
拉格朗日乘子法和KKT条件
在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题,通过解对偶问题而得到原始问题的解。该方法应用在许多统计学习方法中,例如最大熵模型和支持向量机。对于等式约束的优化问题,可以应用拉格朗日乘子法(Lagrange Multiplier)去求取最优值;如果含有不等式约束,可以应用KKT(Karush-Kuhn-Tucker)条件去求取。当然,这两个...原创 2020-03-26 15:04:39 · 457 阅读 · 0 评论 -
拉格朗日乘子,原始问题和对偶问题
1.原始问题假设是定义在上的连续可微函数(为什么要求连续可微呢,后面再说,这里不用多想),考虑约束最优化问题:称为约束最优化问题的原始问题。现在如果不考虑约束条件,原始问题就是:因为假设其连续可微,利用高中的知识,对求导数,然后令导数为0,就可解出最优解,很easy. 那么,问题来了(呵呵。。。),偏偏有约束条件,好烦啊,要是能想办法把约束条件去掉就好了,bingo! ...原创 2020-03-25 23:34:07 · 2827 阅读 · 1 评论