自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 聚类算法概述及相关距离度量公式

一、概述首先:聚类算法是无监督学习算法;一般构建用户兴趣属性画像等可应用聚类算法;而一般的分类算法是有监督学习,基于有标注的历史数据进行算法模型构建定义:对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不用的类别,使得类别内的数据比较相似,类别间的数据相似度较小。重点是计算样本之间的相似度,有时候也称为样本间的距离。二、常用的距离公式:1、闵可夫斯基距离公式,距离越近代表越相似...

2018-06-12 15:19:01 6131

转载 拉格朗日乘子法和KKT条件

拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。前提是:只有当目标函数为凸函数时,使用这两种方法才保证求得的是最优解。对于无约束最优化问题,有很多经典的求解方法,参见无约束最优化方法。拉格朗日乘子法先来看拉格朗日乘子法是什么,再讲为什么。minf...

2018-06-08 11:20:06 278 1

原创 KNN(k近邻)算法原理

原理:样本点的特性与该邻居点的特性类似,可以简单理解为“物以类聚”。因此可以使用目标点的多个邻近点的特性表示当前点的特性。2.KNN算法包含:1、KNN分类算法:“投票法”,选择这k 个样本中出现最多的类别标记作为预测结果;2、KNN回归算法:“平均法”,将这k 个样本的实值输出标记的平均值作为预测结果;3.KNN算法的核心要素:(1)K值的选择:K是超参(需要给定),K值过小容易导致过拟合(比如...

2018-06-05 11:44:46 1371

原创 决策树的相关知识点——信息熵,条件熵,量化度量指标

1.信息熵的意义及解算:代表样本所包含的信息量,用来描述数据的不确定性。高信息熵:即变量是均匀分布的;低信息熵:变量分布不均,有的事件发生概率可能比较大。举例1:那么“专业”的信息熵:H(X) = -[p(数学)*log2(p(数学)) + p(IT)*log2(p(IT)) + p(英语)*log2(p(英语))]               =-[0.5*log2(0.5) + 0.25*lo...

2018-06-04 15:32:51 3840

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除