qq_19461333-CSDN博客

原创聚类算法概述及相关距离度量公式

一、概述首先：聚类算法是无监督学习算法；一般构建用户兴趣属性画像等可应用聚类算法；而一般的分类算法是有监督学习，基于有标注的历史数据进行算法模型构建定义：对大量未知标注的数据集，按照数据内部存在的数据特征将数据集划分为多个不用的类别，使得类别内的数据比较相似，类别间的数据相似度较小。重点是计算样本之间的相似度，有时候也称为样本间的距离。二、常用的距离公式：1、闵可夫斯基距离公式，距离越近代表越相似...

2018-06-12 15:19:01 6131

转载拉格朗日乘子法和KKT条件

拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法，在有等式约束时使用拉格朗日乘子法，在有不等约束时使用KKT条件。前提是：只有当目标函数为凸函数时，使用这两种方法才保证求得的是最优解。对于无约束最优化问题，有很多经典的求解方法，参见无约束最优化方法。拉格朗日乘子法先来看拉格朗日乘子法是什么，再讲为什么。minf...

2018-06-08 11:20:06 278 1

原创 KNN（k近邻）算法原理

原理：样本点的特性与该邻居点的特性类似，可以简单理解为“物以类聚”。因此可以使用目标点的多个邻近点的特性表示当前点的特性。2.KNN算法包含：1、KNN分类算法：“投票法”，选择这k 个样本中出现最多的类别标记作为预测结果；2、KNN回归算法：“平均法”，将这k 个样本的实值输出标记的平均值作为预测结果；3.KNN算法的核心要素：（1）K值的选择：K是超参（需要给定），K值过小容易导致过拟合（比如...

2018-06-05 11:44:46 1371

原创决策树的相关知识点——信息熵，条件熵，量化度量指标

1.信息熵的意义及解算：代表样本所包含的信息量，用来描述数据的不确定性。高信息熵：即变量是均匀分布的；低信息熵：变量分布不均，有的事件发生概率可能比较大。举例1：那么“专业”的信息熵：H(X) = -[p(数学)*log2(p(数学)) + p(IT)*log2(p(IT)) + p(英语)*log2(p(英语))] =-[0.5*log2(0.5) + 0.25*lo...

2018-06-04 15:32:51 3840

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 聚类算法概述及相关距离度量公式

转载 拉格朗日乘子法和KKT条件

原创 KNN（k近邻）算法原理

原创 决策树的相关知识点——信息熵，条件熵，量化度量指标

空空如也

空空如也

原创聚类算法概述及相关距离度量公式

转载拉格朗日乘子法和KKT条件

原创决策树的相关知识点——信息熵，条件熵，量化度量指标