机器学习
文章平均质量分 91
机器学习不光是代码,更重要的是他背后的原理,这个专栏会对每个机器学习算法进行更加彻底的分析,希望我们互相学习,共同进步!
Leon1895
这个作者很懒,什么都没留下…
展开
-
K-means clustering using random matrix sparsification(ICML2018)
K-means clustering using random matrix sparsification第四十一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种使用随机矩阵稀疏化(random matrix sparsification)方法的近似K-Mea...原创 2019-02-13 09:39:52 · 751 阅读 · 0 评论 -
Random Projections for k-means Clustering(ICML 2010)
Random Projections for k-means Clustering第四十次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种使用随机映射(Random Projection)降维方法的近似K-Means算法,其他有关于原型聚类算法的讨论可以移步到该...原创 2019-02-12 19:09:15 · 663 阅读 · 0 评论 -
Proximal Support Vector Machine Classifiers(2001)
Proximal Support Vector Machine Classifiers第四十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。在《》一文中曾对支持向量机(SVM)以及支持向量回归(SVR)进行了详细的介绍,在给出二次规划问题后,需要使用SMO算法对目标进行优化,由于SMO算法运行过程中需要对原数据进行循环扫描,来查找满足条件的样本点,...原创 2019-02-14 21:18:27 · 937 阅读 · 0 评论 -
最小二乘支持向量机(LSSVM)详解
最小二乘支持向量机(LSSVM)详解第四十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。在《》一文中曾对支持向量机(SVM)以及支持向量回归(SVR)进行了详细的介绍,在给出二次规划问题后,需要使用SMO算法对目标进行优化,由于SMO算法运行过程中需要对原数据进行循环扫描,来查找满足条件的样本点,因此该算法的时间复杂度是非常高的,本文介绍一种解决...原创 2019-02-14 20:51:57 · 36520 阅读 · 12 评论 -
Manifold Learning详解
Manifold Learning详解第四十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文承接上一篇《Low-dimension Embedding详解(附带MDS算法)》,继续介绍某些降维手段。Manifold Learning(流行学习) 在《Low-dimension Embedding》这篇文章中,我们介绍了一种称为MDS的降...原创 2019-02-13 16:36:24 · 957 阅读 · 0 评论 -
Dictionary Learning详解(附带K-SVD算法)
Dictionary Learning详解第四十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文主要对字典学习(Dictionary Learning)进行简要介绍,并对其中较为典型的K-SVD算法进行讲解。预备知识:【1】L0L_{0}L0范数 ∣∣x∣∣0=||{\bf{x}}||_{0}=∣∣x∣∣0=向量x\bf{x}x中...原创 2019-02-13 21:06:59 · 2158 阅读 · 0 评论 -
Metric Learning详解(附带NCA算法)
Metric Learning详解第四十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。 无论在分类还是回归任务中,降维的目的有时是为了选择一个合适的距离度量,如果每个空间都对应了一种距离度量方式,那么求得最适合原始样本空间的低维嵌入可以看做是求得一种最恰当的距离度量方式,这就是“度量学习”(Metric Learning)的目的。 为了...原创 2019-02-13 15:45:47 · 2276 阅读 · 0 评论 -
Low-dimension Embedding详解(附带MDS算法)
Low-dimension Embedding详解第四十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。机器学习任务中的“维数灾难”(Curse of Dimensionality)会导致高维样本空间中的样本稀疏与距离计算困难等问题,为了解决该问题,本文介绍一种被称为“多维缩放”(Multiple Dimensional Scaling,简称MDS...原创 2019-02-13 11:43:14 · 1340 阅读 · 0 评论 -
A Simple Linear Time (1 + ε)-Approximation Algorithm for k-Means Clustering in Any Dimensions(2004)
A Simple Linear Time (1 + ε)-Approximation Algorithm for k-Means Clustering第三十九次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means算法本身的时间复杂度很高,特别是在处理大数据集时,因此这篇文章主要介绍一种具有线性时间复杂度的近似K-Means算法,其他有关于...原创 2019-02-09 14:43:41 · 597 阅读 · 0 评论 -
Kernelized Principal Component Analysis详解
Kernelized Principal Component Analysis详解第三十八次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。《主成分分析(PCA)详解(附带详细公式推导)》一文中曾对一种重要的降维手段——主成分分析(PCA)进行了讲解,这篇文章则主要对PCA的一种变体——核主成分分析(KPCA)进行讲解。主成分分析的问题分析 主...原创 2019-01-18 14:20:49 · 331 阅读 · 0 评论 -
基于图切分的K-Means算法——Spectral Clustering
基于图切分的K-Means算法——Spectral Clustering第三十七次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇对聚类中的一个重要算法——Spectral Clustering(谱聚类)进行讲解,算法原理可以参照原论文(链接附在文章下方)或网上的相关原理详解,本文旨在以代码和实验现象解释算法中的某系细节,不做过多纯原理的赘述。...原创 2019-01-07 12:44:50 · 1671 阅读 · 0 评论 -
使用自相似性的聚类方法——Chameleon
使用自相似性的聚类方法——Chameleon第三十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算...原创 2018-12-10 09:54:29 · 2406 阅读 · 0 评论 -
基于密度的新概念——SNN密度
基于密度的新概念——SNN密度第三十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结...原创 2018-12-10 09:13:16 · 2154 阅读 · 2 评论 -
共享最近邻相似度
共享最近邻相似度第三十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第二部分,主要针对“共享最近邻相似度(Shared Nearest Neighbour)”以及使用该度量的“Jarvis-Patrick聚类”进行介绍。其他基于图的聚类算法的链接可以在这篇综述《基于图的聚类算法综述(基于图的聚类算法开篇)》的结尾找到。S...原创 2018-12-05 09:05:56 · 6682 阅读 · 0 评论 -
稀疏化邻近度图
稀疏化邻近度图第三十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。本文作为基于图的聚类的第一部分,主要针对“如何稀疏化邻近度图”以及“如何在稀疏化后的邻近度图上运行聚类算法”,本文还会针对数据结构与算法中的两种构建“最小生成树(Minimum Spanning Tree)”的算法(Prim和Kruskal)进行介绍。其他基于图的聚类算法的链接可以...原创 2018-12-03 20:39:36 · 1889 阅读 · 0 评论 -
基于图的聚类算法综述(基于图的聚类算法开篇)
基于图的聚类算法综述第三十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章作为基于图的聚类(Figure-based Clustering)算法的开篇,简要介绍了该类算法的相关内容,并为之后的算法详解做铺垫。如何稀疏化邻近度图 稀疏化邻近度图,即只保留对象与其最近邻之间的连接,采用这种处理方法有利于处理离群点和噪声,还可以基于稀疏...原创 2018-12-03 09:16:58 · 12236 阅读 · 0 评论 -
K-Means++详解
k-means++ The Advantages of Careful Seeding第三十一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。由于K-Means++是标准K-Means的一种优化算法,因此这篇文章作为原型聚类中介绍的第六篇,其他有关于原型聚类算法的讨论可以移步到该类算法的导航页《原型聚类算法综述(原型聚类算法开篇)》。传统K-Me...原创 2018-11-23 20:34:27 · 2215 阅读 · 3 评论 -
Agglomerative Hierarchical Clustering详解
Agglomerative Hierarchical Clustering详解第二十七次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章主要是介绍各种凝聚层次聚类(Agglomerative Hierarchical Clustering)技术,从基本凝聚层次聚类算法出发,介绍了该类算法中各种“距离”的定义以及时间、空间复杂度,然后介绍了各种...原创 2018-10-22 14:27:26 · 8765 阅读 · 3 评论 -
Feature Selection详解(附带Relief、Relief-F、LVM详解)(一)
Feature Selection详解(附带Relief、Relief-F、LVM详解)(一)第二十五次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇主要是针对特征选择问题的几种常见方法进行阐述,并介绍其中几种比较经典的特征选择算法(Relief、Relief-F、LVM)。Feature Selection详解 “特征选择”(Feat...原创 2018-10-16 10:07:20 · 4618 阅读 · 2 评论 -
Feature Selection详解(附带Relief、Relief-F、LVM详解)(二)
Feature Selection详解第二十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇承接上一篇《》的内容,仍然是针对特征选择问题的其他几种常见方法进行阐述,并介绍其中一种比较经典的特征选择算法(LVM)。Feature Selection详解 “特征选择”(Feature Selection)是一种数据预处理(Data Pre...原创 2018-10-17 09:49:08 · 2183 阅读 · 0 评论 -
Grid-based Clustering详解(附带DENCLUE算法)
Grid-based Clustering详解第二十三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为密度聚类算法族的第二篇,主要是介绍其中最流行的一类算法——Grid-based Clustering,并对该类算法中最具代表性的DENCLUE(Density Clustering)算法进行介绍,其他密度聚类算法的链接可以在《DBSCAN详...原创 2018-09-25 13:30:32 · 4664 阅读 · 5 评论 -
Self-organizing Map详解
Self-organizing Map详解 第二十一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章是原型聚类中介绍的第五个算法,主要是谈一谈“自组织映射”(Self-organizing  \ Map)。其他有关于原型聚类算法的讨论可以移步到该类算法的导航页《原型聚类算法综述(原型聚类算法开篇)》。Self-...原创 2018-09-13 16:17:37 · 12549 阅读 · 2 评论 -
Subspace Clustering详解(附带CLIQUE算法详解)
Subspace Clustering详解第二十四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为密度聚类算法族的第三篇,主要是介绍一种用来发现子空间中的簇的算法——Subspace Clustering,并对该类算法中最具代表性的CLIQUE(Clustering in quest)算法进行介绍,其他密度聚类算法的链接可以在《DBSCAN...原创 2018-10-08 12:20:09 · 9725 阅读 · 4 评论 -
DBSCAN详解(密度聚类算法开篇)
DBSCAN详解 第二十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为密度聚类算法族的开篇,主要是介绍其中最流行的一种算法——DBSCAN,其他算法在后续会陆续更新,链接附在该篇文章的结尾处。预备知识: 这一部分主要是谈一谈DBSCAN中一些概念的定义:ϵϵ\epsilon-领域、核心对象、密度直达、密度可达以及密度相...原创 2018-09-17 13:58:17 · 4097 阅读 · 4 评论 -
Mixture-of-Gaussian Clustering详解
Mixture-of-Gaussian Clustering详解 第二十次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章是原型聚类中介绍的第四个算法,主要是谈一谈“高斯混合分布”(Mixture-of-Gaussian  \ Distribution)。其他有关于原型聚类算法的讨论可以移步到该类算法的导航页《原型聚类...原创 2018-09-04 14:15:08 · 1221 阅读 · 0 评论 -
Learning Vector Quantization详解
Learning Vector Quantization详解 第十八次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章是原型聚类中介绍的第二个算法,主要是谈一谈“学习向量量化”(Learning  \ Vector &nbs原创 2018-08-29 08:20:15 · 1863 阅读 · 0 评论 -
Fuzzy Clustering详解
Fuzzy Clustering详解 第十九次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章是原型聚类中介绍的第三个算法,主要是谈一谈“模糊聚类”(Fuzzy  \ Clustering)。其他有关于原型聚类算法的讨论可以移步到该类算法的导航页《原型聚类算法综述(原型聚类算法开篇)》。模糊集合 模糊集合论...原创 2018-09-03 15:13:32 · 4633 阅读 · 0 评论 -
可伸缩聚类算法综述(可伸缩聚类算法开篇)
可伸缩聚类算法综述第二十八次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章作为可伸缩聚类(Scalable Clustering)算法的开篇,简要介绍了几种针对大规模数据常用的减少时间和空间复杂度的方法。 许多聚类算法所需要的存储量(空间复杂度)都是非线性的,以层次聚类为例,其所需的存储量为,由于磁盘对随机访问速度的限制,这类算法并不...原创 2018-10-30 08:35:57 · 1987 阅读 · 0 评论 -
K-Means详解
K-Means详解 第十七次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章以标准K-Means为基础,不仅对K-Means的特点和“后处理”进行了细致介绍,还对基于此聚类方法衍生出来的二分K-均值和小批量K-均值进行了延伸。标准K-均值(K-Means)算法简介 标准K-均值(K-Means)使用贪心法对优化目标进行迭代优化...原创 2018-08-27 14:58:29 · 1887 阅读 · 0 评论 -
原型聚类算法综述(原型聚类算法开篇)
原型聚类算法综述 第十六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇作为该类算法族的开篇,主要介绍了基于原型聚类的最终模型和优化目标。 基于原型的聚类最终产生的模型包含以下两部分: (1) 聚类簇{Cl|l=1,2,...,k}{Cl|l=1,2,...,k}\{C_l|l=1,2,...,k\} (2) 聚类中心{...原创 2018-08-27 14:22:21 · 2120 阅读 · 0 评论 -
Adaboost详解(附带基本公式推导)
Adaboost详解 第一次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇的大部分内容都来自于《机器学习》这本书,以及自己的一些见解。MathJax还不会用,so公式都是我用MathType打出来后截图生成的。预备知识: 这一部分主要是谈一谈Boosting的概念和原理,以及Adaboost中涉及到的基础数学公式即定理的推...原创 2018-04-26 21:47:36 · 3399 阅读 · 1 评论 -
Gradient Boosted Decision Tree详解
Gradient  \ Boosted  \ Decision  \ Tree详解 第二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇的内容主要来自于《机器学习》和《机器学习技法》,以及自己的一些见解。预备知识: 这原创 2018-07-09 22:00:14 · 194 阅读 · 0 评论 -
RandomForest详解(附带详细公式推导)
RandomForest详解 第三次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇的内容来自于各种书籍,以及自己的一些见解。预备知识: 这一部分主要是谈一谈bootstrap  \ sampling(自助采样法)、Bagging,以及out-of-bag estimate(包外估计)中涉及到的基础数学公式和...原创 2018-07-11 17:39:49 · 20806 阅读 · 3 评论 -
Ensemble Strategy详解(附Stacking集成算法详解)
Ensemble Strategy详解 第四次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇的内容来自于《机器学习》和网上查阅到的资料,以及自己的一些见解。 这篇文章旨在综述集成策略,内容并不涉及到公式推导,因此,这里就不再分开进行相关数学推导的阐述了,下面直接进入主题。学习器结合的优点 1.统计的原因 ...原创 2018-07-12 21:22:43 · 4726 阅读 · 3 评论 -
Decision Tree简介(决策树算法族的开篇)
Decision Tree简介 第五次写博客,作为决策树算法族的开篇,这里对各种决策树模型做一个简要概括和相关公式推导,并对决策树生成过程中的相关问题进行讨论。本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。为了方便理解,本文对信息论的一些理论做了简要介绍,下面直接进入正题。决策树的基本生成过程 一般的,一棵决策树包含一个根结点、若干个内部结点...原创 2018-07-25 23:27:58 · 433 阅读 · 2 评论 -
C4.5详解(附带信息论介绍)
C4.5详解 第六次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇内容来自于各种书籍、网上的资料,以及自己的一些见解。关于决策树的一些基本概念在这篇博客《Decision Tree简介(决策树算法族的开篇)》中有相关介绍。预备知识: 这一部分主要是谈一谈集中基于信息论的结点划分方法,包括信息熵(Informatica&nbsp...原创 2018-07-28 13:25:03 · 806 阅读 · 2 评论 -
C&RT(CART)详解
C&RT详解 第七次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇文章的内容来自于各种书籍、网上资料,以及自己的一些见解。关于决策树的一些基本概念在这篇博客《Decision Tree简介(决策树算法族的开篇)》中有相关介绍。决策树的基本生成过程 一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点,叶结点对应...原创 2018-07-29 13:27:51 · 1459 阅读 · 2 评论 -
Naive Bayes Classifier详解(附带概率论公式推导)
Naive Bayes Classifier详解 第八次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇的内容来自于各种书籍和网上资料,以及自己的一些见解。预备知识: 这一部分主要是谈一谈概率论中的相关内容,以及贝叶斯决策论的介绍。贝叶斯定理(Bayes’ theorem) 假设X,YX,YX,Y是一对随机变量,他们...原创 2018-07-31 11:38:28 · 8126 阅读 · 1 评论 -
Half-naive Bayes Classifier详解
Half-naive Bayes Classifier详解 第九次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇的内容来自于各种书籍和网上资料,以及自己的一些见解。预备知识: 这篇文章主要是在《Naive Bayes Classifier详解(附带概率论公式推导)》基础之上进行的扩展,因此一些有关朴素贝叶斯的公式推导和定理证明...原创 2018-08-01 21:52:54 · 620 阅读 · 0 评论 -
Bayes Belief Networks详解(附带详细公式推导)
Bayes Belief Networks详解 第十次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这篇文章主要分为一下三部分来介绍贝叶斯信念网(Bayes  \ Belief  \ Networks):BNN的简要介绍、如何构建BNN、如何基于BNN进行估计以及BNN的特点。原创 2018-08-07 12:27:55 · 4224 阅读 · 2 评论