自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

温染的笔记

人生不是戏剧,而我亦非主角

  • 博客(8)
  • 收藏
  • 关注

原创 FP-growth

FP-growthFP-growth 算法能够更有效地挖掘数据,但不能用于发现关联规则。FP-growth 基于 Apriori 算法构建,但在完成相同任务时采用了一些不同的技术。Apriori:在每次循环的连接步中都要扫描数据集,来计算当前组合而成的项集的支持度。FP-growth:只需要对数据库进行两次扫描,并将数据集存储在一个特定的称作 FP 树的数据结构。这种做法能够使得算法的执...

2019-04-27 20:34:49 1754

原创 Apriori

Apriori从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。那么什么是关联分析呢?关联分析是一种在大规模数据集中寻找有趣关系的任务。这些任务包括两项:发现频繁项集和从频繁项集中发现关联规则。频繁项集(frequent item sets):是经常出现在一块的物品的集合,例...

2019-04-26 21:00:04 14215 4

原创 AGNES

AGNES(AGglomerative NESting 的简写)是一种采用自底向上聚合策略的层次聚类算法。【工作过程】:先将数据集中的每个样本看作一个初始聚类簇;然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并;步骤(2)不断重复,直至达到预设的聚类簇的个数。【关键】:如何计算聚类簇之间的距离。实际上,每个簇是一个样本集合,因此,只需采用关于集合的某种距离即可。最小距离:...

2019-04-22 20:46:04 4207

原创 学习向量量化 LVQ

学习向量量化(Learning Vector Quantization,简称 LVQ)与 K 均值算法类似,也是试图找到一组原型向量来刻画聚类结构,但与一般聚类算法不同的是,LVQ 假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。给定样本集 D={(x1,y1),(x2,y2),⋯ ,(xn,yn)}D = \{(x_1, y_1), (x_2, ...

2019-04-21 11:22:56 1499 8

原创 主成分分析 PCA

主成分分析(Principal Component Analysis,简称 PCA)旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的。【示例】:在三维空间中有一系列数据点,这些点分布在一个过原点的平面上。如果我们用自然坐标系 x,y,z 三个轴来表示数据,就需要使用三个维度。而实际上,这些点只出现在一个二维平面上,如果我们**通过坐标系旋转变换(获得新坐标系)**使得数据...

2019-04-19 16:21:57 1526 3

原创 多维缩放 MDS

多维缩放多维缩放(Multiple Dimensional Scaling,简称 MDS)是一种经典的降维方法,要求原始空间中样本之间的距离在低维空间中得以保持。推导过程假定 n 个样本在原始空间的距离矩阵为 D∈Rn×nD \in R^{n \times n}D∈Rn×n,其中第 i 行 j 列的元素 distijdist_{ij}distij​ 为样本 xix_ixi​ 到 xjx_jx...

2019-04-15 19:55:42 3073 4

原创 K-近邻算法

K 近邻法K 近邻法(k-nearest neighbors,KNN)是一种基本分类与回归方法,于 1968 年由 Cover 和 Hart 提出。【过程】:假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 K 个最近训练实例的类别,通过多数表决等方式进行预测。如上图所示,绿色方块 w1、蓝色六角星 w2 分别代表训练集中的两个类别。图中与红色五角星最相近的 3(k=...

2019-04-07 21:04:40 1795

原创 k-d tree 算法实现

k-d tree 算法k-d 树(k-dimensional 树的简称),是一种分割 k 维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。应用背景过程k-d tree 算法主要分为两部分:k-d 树的构建算法;基于 k-d 树的最邻近查找算法。k-d 树的构建算法k-d 树是一个二叉树,每个节点表示一个空间范围,下表给出 k-d 树节点的数...

2019-04-07 20:47:12 1019 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除