![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘/机器学习算法原理
laurel1115
这个作者很懒,什么都没留下…
展开
-
理解降维算法之PCA(主成分分析)
PCAPCA算法流程PCA理解实例参考PCA算法流程输入:n维样本集D=(x(1),x(2),…,x(m)),要降维到的维数n’.输出:降维后的样本集D′1)对所有的样本进行中心化:2) 计算样本的协方差矩阵XXTX{X^T}XXT3) 对矩阵XXTX{X^T}XXT 进行特征值分解(即求解特征值和特征向量)4)取出最大的n’个特征值对应的特征向量(w1,w2,…,wn′), 将所...原创 2019-03-05 09:50:15 · 666 阅读 · 0 评论 -
【聚类】篇三之理解层次聚类 BIRCH算法
在K-Means聚类算法原理中,我们讲到了K-Means和Mini Batch K-Means的聚类原理。这里我们再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类,当然需要用到一些技巧,下面我们就对BIRCH算法做一个总结。BIRCH概述 BIRCH的全称是利用层次方法的平衡迭代规约和聚...转载 2019-03-13 11:09:53 · 872 阅读 · 0 评论 -
【聚类算法】篇二之KMeans聚类算法及其优化KMeans++,elkan K-Means,Mini Batch K-Means,K中心点算法
篇二之KMeans聚类算法及其优化一、KMeans算法二、优化初始k个中心的KMeans++算法三、优化距离计算量的elkan K-Means算法四、Mini Batch K-Means参考KMeans算法是原型聚类的一种,原型聚类是指基于一组原型进行初始化,然后再利用迭代的方式对原型进行更新求解一、KMeans算法K均值算法基于最小化平方误差的原则,所有簇的平方误差和如下:μi是簇Ci...原创 2019-03-13 10:00:36 · 4052 阅读 · 3 评论 -
【聚类算法】篇一之理解聚类
篇一之理解聚类概述聚类性能度量外部指标内部指标距离度量对于数值属性对于非数值属性对于属性取值为混合型对于属性取值具有不同权重概述首先,聚类属于无监督学习,即样本没有标签(类别标记),但是试图将数据集划分为若干个不相交的子集,称为一个个的”簇“,这些簇实际对应的概念在最后由人来定义。通常,聚类既可以作为一个单独的过程,只是简单的将数据集划分为一个个的簇,另外,也可以在对一些类别不好定义的分类任...原创 2019-03-12 20:32:01 · 1058 阅读 · 0 评论 -
对于正则化项L1,L2范数的理解
对于正则化项L1,L2范数的理解L2范数正则化L1范数正则化L1范数正则化与L2范数正则化的作用区别L1范数正则化为什么比L2范数正则化更容易获得稀疏解之前讲到了利用正则化项降低过拟合,这里再总结一下L1,L2这两种范数作为正则化项各自的特点及区别L2范数正则化在深度学习一书中,带有L2范数的正则化项的目标函数如下:其中 wTw{w^T}wwTw=∣∣w∣∣2{||w||}^2∣∣w∣∣...原创 2019-03-12 11:04:26 · 1616 阅读 · 0 评论 -
属性(特征)离散化的方法
前面转载了一篇博文,这里自己再进行一下补充和梳理属性(特征)离散化是指设置若干离散的划分点,将属性的取值化为一个个区间,再用离散值表示,一般取整数表示,为了计算机的识别常用的离散化的方法一、非监督方法1.分箱离散化是指基于指定的箱子的个数自定向下的分裂计数,通过使用等宽或等频分箱,然后用箱子中的均值或者中位数来代表每个箱子,实现离散化2.通过聚类离散化通过将属性A的值划分为簇或组,产...原创 2019-03-07 18:39:18 · 1740 阅读 · 1 评论 -
特征怎么离散化?为什么需要离散化?
特征怎么离散化?为什么需要离散化?特征离散化连续特征离散化的基本假设,是默认连续特征不同区间的取值对结果的贡献是不一样的。特征的连续值在不同的区间的重要性是不一样的,所以希望连续特征在不同的区间有不同的权重,实现的方法就是对特征进行划分区间,每个区间为一个新的特征。常用做法,就是先对特征进行排序,然后再按照等频离散化为N个区间。无监督方法无监督方法都具有的问题就是都需要认为规定划分区间这...转载 2019-03-07 18:16:45 · 493 阅读 · 0 评论 -
数据挖掘/机器学习领域中连续,离散,连续化,离散化到底是什么含义
现在网上关于数据挖掘、机器学习中数据预处理阶段关于属性(特征)的各种连续,离散的变换,由于用词不清,真让人晕头转向。那么数据挖掘、机器学习中用于描述属性(特征)的”连续“,”离散“,”连续化“,”离散化“的这几个词到底是什么含义呢?首先,韩家炜老师在他的书的第二章就对属性的几种类型进行了介绍:1.标称属性:即与名称有关,标称属性的值是一些符号或事物的名称。每个取值代表某种类别、或状态。举个...原创 2019-03-07 17:06:18 · 5946 阅读 · 1 评论 -
防止过拟合方法之添加正则项的思想原理及作用
防止过拟合方法之添加正则项的思想原理及作用一、两种风险最小化二、利用偏差方差分解理解正则化作用一、两种风险最小化李航老师的统计学习方法中提到了两种风险最小化,一种是经验风险最小化,另一种是结构风险最小化,首先我们知道模型的损失越小那么就表明模型越好,模型的输入X以及输出Y均为随机变量,遵循联合分布,所以理论上模型关于联合分布P(X,Y)的平均损失(称为期望损失)如下:给定训练集,模型关于...原创 2019-03-10 16:05:07 · 1423 阅读 · 0 评论 -
深入理解拉格朗日乘子法和KKT条件的原理及运用
深入理解拉格朗日乘子法和KKT条件的原理及运用三、引入KKT条件求带不等式约束条件的最优化问题一、常见的三类最优化问题二、拉格朗日乘子法解决带等式约束的最优化问题(一)用实例理解拉格朗日乘子法的背后意义(二)、拉格朗日乘子法求解带等式约束的zui'yo三、引入KKT条件求带不等式约束条件的最优化参考构造拉格朗日函数 :之所以这样构造的原理我们可以继续看上面的例子的第8步,因为有我们把这...原创 2019-03-06 15:46:04 · 5636 阅读 · 2 评论 -
决策树CART算法原理的理解
决策树CART算法原理理解一、CART回归决策树算法原理(一)、回归树的生成最优特征及最优切分点的选择(二)、最小二乘回归树生成算法二、CART分类树算法原理(一)、分类树的生成最优特征及最优切分点的选择(二)、分类树生成算法三、CART对于特征为连续值以及离散值的处理参考首先应该清楚回归树与分类树的本质区别在于模型的输出值不同,如果输出值为连续值则为回归树,如果为离散值则为分类树。一、CAR...原创 2019-03-03 20:58:54 · 3932 阅读 · 0 评论 -
数据挖掘算法之时间序列算法(平稳时间序列模型,AR(p),MA(q),(平稳时间序列模型,AR(p),MA(q),ARMA(p,q)模型和非平稳时间序列模型,ARIMA(p,d,q)模型)学习笔记梳理
时间序列算法一、时间序列的预处理二、平稳时间序列模型(一)、自回归模型AR( p )(二)、移动平均模型MA(q)(三)、自回归移动平均模型ARMA(p,q)三、非平稳时间序列模型四、确定参数p,q的取值在做很多与时间序列有关的预测时,比如股票预测,餐厅菜品销量预测时常常会用到时间序列算法,之前在学习这方面的知识时发现这方面的知识讲解不多,所以自己对时间序列算法中的常用概念和模型进行梳理总结(但...原创 2019-02-26 15:51:25 · 3023 阅读 · 0 评论 -
【聚类】篇四之理解密度聚类算法DBSCAN
篇四之理解密度聚类算法DBSCAN一、密度聚类概述二、DBSCAN聚类(一)、基础概念(二)、算法原理(三)、算法流程(四)、优缺点参考一、密度聚类概述密度聚类假设聚类结构能通过样本的紧密程度确定,同一类别的样本,他们之间的紧密相连的,也就是说,在该类别任意样本周围不远处一定有同类别的样本存在。从样本密度出发考虑样本间的可连接性,然后基于可连接样本不断扩展聚类的簇实现聚类的目的。基于原型(划分...原创 2019-03-13 15:37:13 · 1449 阅读 · 0 评论