2019年04月_clvsit

原创 FP-growth

FP-growthFP-growth 算法能够更有效地挖掘数据，但不能用于发现关联规则。FP-growth 基于 Apriori 算法构建，但在完成相同任务时采用了一些不同的技术。Apriori：在每次循环的连接步中都要扫描数据集，来计算当前组合而成的项集的支持度。FP-growth：只需要对数据库进行两次扫描，并将数据集存储在一个特定的称作 FP 树的数据结构。这种做法能够使得算法的执...

2019-04-27 20:34:49 1789

原创 Apriori

Apriori从大规模数据集中寻找物品间的隐含关系被称作关联分析（association analysis）或者关联规则学习（association rule learning）。那么什么是关联分析呢？关联分析是一种在大规模数据集中寻找有趣关系的任务。这些任务包括两项：发现频繁项集和从频繁项集中发现关联规则。频繁项集（frequent item sets）：是经常出现在一块的物品的集合，例...

2019-04-26 21:00:04 14337 4

原创 AGNES

AGNES（AGglomerative NESting 的简写）是一种采用自底向上聚合策略的层次聚类算法。【工作过程】：先将数据集中的每个样本看作一个初始聚类簇；然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并；步骤（2）不断重复，直至达到预设的聚类簇的个数。【关键】：如何计算聚类簇之间的距离。实际上，每个簇是一个样本集合，因此，只需采用关于集合的某种距离即可。最小距离：...

2019-04-22 20:46:04 5116

原创学习向量量化 LVQ

学习向量量化（Learning Vector Quantization，简称 LVQ）与 K 均值算法类似，也是试图找到一组原型向量来刻画聚类结构，但与一般聚类算法不同的是，LVQ 假设数据样本带有类别标记，学习过程利用样本的这些监督信息来辅助聚类。给定样本集 D={(x1,y1),(x2,y2),⋯ ,(xn,yn)}D = \{(x_1, y_1), (x_2, ...

2019-04-21 11:22:56 1554 8

主成分分析（Principal Component Analysis，简称 PCA）旨在找到数据中的主成分，并利用这些主成分表征原始数据，从而达到降维的目的。【示例】：在三维空间中有一系列数据点，这些点分布在一个过原点的平面上。如果我们用自然坐标系 x,y,z 三个轴来表示数据，就需要使用三个维度。而实际上，这些点只出现在一个二维平面上，如果我们**通过坐标系旋转变换（获得新坐标系）**使得数据...

2019-04-19 16:21:57 1685 3

原创多维缩放 MDS

多维缩放多维缩放（Multiple Dimensional Scaling，简称 MDS）是一种经典的降维方法，要求原始空间中样本之间的距离在低维空间中得以保持。推导过程假定 n 个样本在原始空间的距离矩阵为 D∈Rn×nD \in R^{n \times n}D∈Rn×n，其中第 i 行 j 列的元素 distijdist_{ij}distij 为样本 xix_ixi 到 xjx_jx...

2019-04-15 19:55:42 3255 4

原创 K-近邻算法

K 近邻法K 近邻法（k-nearest neighbors，KNN）是一种基本分类与回归方法，于 1968 年由 Cover 和 Hart 提出。【过程】：假设给定一个训练数据集，其中的实例类别已定。分类时，对新的实例，根据其 K 个最近训练实例的类别，通过多数表决等方式进行预测。如上图所示，绿色方块 w1、蓝色六角星 w2 分别代表训练集中的两个类别。图中与红色五角星最相近的 3（k=...

2019-04-07 21:04:40 1838

原创 k-d tree 算法实现

k-d tree 算法k-d 树（k-dimensional 树的简称），是一种分割 k 维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。应用背景过程k-d tree 算法主要分为两部分：k-d 树的构建算法；基于 k-d 树的最邻近查找算法。k-d 树的构建算法k-d 树是一个二叉树，每个节点表示一个空间范围，下表给出 k-d 树节点的数...

2019-04-07 20:47:12 1073 1

温染的笔记