- 博客(4)
- 收藏
- 关注
原创 聚类算法概述及相关距离度量公式
一、概述首先:聚类算法是无监督学习算法;一般构建用户兴趣属性画像等可应用聚类算法;而一般的分类算法是有监督学习,基于有标注的历史数据进行算法模型构建定义:对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不用的类别,使得类别内的数据比较相似,类别间的数据相似度较小。重点是计算样本之间的相似度,有时候也称为样本间的距离。二、常用的距离公式:1、闵可夫斯基距离公式,距离越近代表越相似...
2018-06-12 15:19:01 6131
转载 拉格朗日乘子法和KKT条件
拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。前提是:只有当目标函数为凸函数时,使用这两种方法才保证求得的是最优解。对于无约束最优化问题,有很多经典的求解方法,参见无约束最优化方法。拉格朗日乘子法先来看拉格朗日乘子法是什么,再讲为什么。minf...
2018-06-08 11:20:06 278 1
原创 KNN(k近邻)算法原理
原理:样本点的特性与该邻居点的特性类似,可以简单理解为“物以类聚”。因此可以使用目标点的多个邻近点的特性表示当前点的特性。2.KNN算法包含:1、KNN分类算法:“投票法”,选择这k 个样本中出现最多的类别标记作为预测结果;2、KNN回归算法:“平均法”,将这k 个样本的实值输出标记的平均值作为预测结果;3.KNN算法的核心要素:(1)K值的选择:K是超参(需要给定),K值过小容易导致过拟合(比如...
2018-06-05 11:44:46 1371
原创 决策树的相关知识点——信息熵,条件熵,量化度量指标
1.信息熵的意义及解算:代表样本所包含的信息量,用来描述数据的不确定性。高信息熵:即变量是均匀分布的;低信息熵:变量分布不均,有的事件发生概率可能比较大。举例1:那么“专业”的信息熵:H(X) = -[p(数学)*log2(p(数学)) + p(IT)*log2(p(IT)) + p(英语)*log2(p(英语))] =-[0.5*log2(0.5) + 0.25*lo...
2018-06-04 15:32:51 3840
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人