机器学习
文章平均质量分 75
qq_19461333
这个作者很懒,什么都没留下…
展开
-
决策树的相关知识点——信息熵,条件熵,量化度量指标
1.信息熵的意义及解算:代表样本所包含的信息量,用来描述数据的不确定性。高信息熵:即变量是均匀分布的;低信息熵:变量分布不均,有的事件发生概率可能比较大。举例1:那么“专业”的信息熵:H(X) = -[p(数学)*log2(p(数学)) + p(IT)*log2(p(IT)) + p(英语)*log2(p(英语))] =-[0.5*log2(0.5) + 0.25*lo...原创 2018-06-04 15:32:51 · 3849 阅读 · 0 评论 -
聚类算法概述及相关距离度量公式
一、概述首先:聚类算法是无监督学习算法;一般构建用户兴趣属性画像等可应用聚类算法;而一般的分类算法是有监督学习,基于有标注的历史数据进行算法模型构建定义:对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不用的类别,使得类别内的数据比较相似,类别间的数据相似度较小。重点是计算样本之间的相似度,有时候也称为样本间的距离。二、常用的距离公式:1、闵可夫斯基距离公式,距离越近代表越相似...原创 2018-06-12 15:19:01 · 6143 阅读 · 0 评论 -
拉格朗日乘子法和KKT条件
拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。前提是:只有当目标函数为凸函数时,使用这两种方法才保证求得的是最优解。对于无约束最优化问题,有很多经典的求解方法,参见无约束最优化方法。拉格朗日乘子法先来看拉格朗日乘子法是什么,再讲为什么。minf...转载 2018-06-08 11:20:06 · 284 阅读 · 1 评论