机器学习经典算法研究
文章平均质量分 85
探究机器学习中经典算法的原理
guoziqing506
这个作者很懒,什么都没留下…
展开
-
浅谈PageRank
1996年,两位还在斯坦福大学攻读计算机理学博士学位的研究生,开始了一项研究:如何对互联网上“成万上亿”的网页进行排序。在当时看来,这只是发生在斯坦福的一个普通课题研究而已,然而包括其研究者在内,都没有意识到,这项研究最后的成果,会引发互联网搜索引擎领域一个划时代的变革。这两位博士的名字相信大家都很熟悉了,他们正是后来大名鼎鼎的Google公司的创始人:拉里佩奇(Larry Page)和谢尔盖原创 2017-04-25 18:00:09 · 28862 阅读 · 7 评论 -
逻辑回归(logistic regression)原理详解
机器学习解决的问题,大体上就是两种:数值预测和分类。前者一般采用的是回归模型,比如最常用的线性回归;后者的方法则五花八门,决策树,kNN,支持向量机,朴素贝叶斯等等模型都是用来解决分类问题的。其实,两种问题从本质上讲是一样的:都是通过对已有数据的学习,构建模型,然后对未知的数据进行预测,若是连续的数值预测就是回归问题,若是离散的类标号预测,就是分类问题。这里面有一类比较特殊的算法,就是逻辑回归...原创 2018-08-01 12:34:18 · 102054 阅读 · 5 评论 -
最大化期望算法(EM)详解
我们知道最大似然估计的根本目的是根据抽样的到的样本(即数据),反推出最有可能的分布参数(即模型),这是一个非常典型的机器学习的思想。所以在很多领域最大似然估计有着极为广泛的应用。然而,如果已知的数据中含有某些无法观测的隐藏变量时,直接使用最大似然估计是不足以解决问题的。这个时候就要依靠最大化期望(EM)算法了。简单的说,EM算法是在依赖于无法观测的隐藏变量的概率模型中,寻找参数最大似然估计或者...原创 2018-07-30 09:15:53 · 38315 阅读 · 11 评论 -
SVM解释:一、SVM的整体框架
支持向量机(Support Vector Machine)是一种非常重要的分类方法,大的范畴上讲,属于监督学习。它最早由Vapnik等人在1992年提出,已经发展了近30年。尽管它的训练速度偏慢,但是由于其对复杂非线性数据的强大的建模能力,依然在很多领域,包括手写数字识别,对象识别,基准时间序列预测检验等有着非常广泛的应用。可以说,任何一种二分类的问题都在理论上都可以用SVM解决。当然,SVM...原创 2018-07-23 08:40:36 · 7014 阅读 · 1 评论 -
SVM解释:二、SVM的数学基础
本节所述的内容为与支持向量机(SVM)相关的数学基础知识。总的来说,我先介绍了凸优化问题求最优解的思路,介绍了拉格朗日乘子法和KKT条件,随后根据KKT条件给出了求解有不等式约束的凸优化问题的一种解法,即拉格朗日对偶。我的学习体会是,如果不理解上面说的这些数学基础知识,学习SVM会寸步难行。所以我把基础知识部分当做学习SVM的第一站。当然,如果你已经了解这些,也可以直接跳到我的下一篇博客。。去...原创 2018-07-23 08:41:07 · 4479 阅读 · 3 评论 -
SVM解释:三、线性可分的情况
在之前的博客 拉格朗日乘子法和KKT条件 中,我已经大致介绍了支持向量机(SVM)的数学理论基础。从本文开始,我将逐步推导SVM是如何运用于数据分类的。由简入难,我先来介绍最简单的,通过训练线性可分的数据分类。在我写的SVM的第一篇博客中,已经大致介绍了SVM是做什么的,大概是怎样一个思路,所以本文我们直接进入正题,从介绍最大边缘超平面的计算方法开始。1. 最大边缘超平面一个给定的...原创 2018-07-23 08:41:26 · 13231 阅读 · 4 评论 -
SVM解释:四、线性不可分的情况
之前的博客介绍了在数据为线性可分的情况下,如何用SVM对数据集训练,从而得到一个线性分类器,也就是超平面WX+b=0WX+b=0WX + b = 0. 但是我已经强调过多次,线性可分的情况有相当的局限,所以SVM的终极目标还是要解决数据线性不可分的情况。解决这种线性不可分的情况基本的思路有两种:加入松弛变量和惩罚因子,找到“最好”超平面,这里的“最好”可以理解为尽可能地将数据正确分类;使用...原创 2018-07-23 08:41:42 · 21625 阅读 · 4 评论 -
SVM解释:五、SMO算法
SMO算法是John C. Platt在1998年提出的。论文的题目是”Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines”。它很快便成为最快的二次规划优化算法,特别是在针对线性SVM和数据稀疏时性能更优。当然了,SMO优越性能的背后是其相当复杂的数学推导,所以,我也把这块最...原创 2018-07-23 08:42:47 · 13818 阅读 · 9 评论 -
Apriori算法解析
背景介绍维克多迈尔在《大数据时代》中,提出了大数据时代跟传统的信息时代相比,最本质的三个思维变革:1. 要全体数据,而不仅是样本;2. 要混杂,而不要效率偏低的精确;3. 要相关关系,而不是因果关系。这第三条说的就是数据挖掘中,最基础,最简单,也是最为重要的应用——数据相关关系的挖掘。相关关系,其实是数据中蕴含的最直接的知识,而对这种相关关系的挖掘,如今也早已应用到推荐系统,个性化检索,机器学原创 2017-03-09 10:46:22 · 14263 阅读 · 5 评论 -
决策树归纳
分类与监督学习现实中,我们经常会遇到这样的问题:银行收到用户的信用卡申请表。当然,这是一张带有用户丰富信息的申请表,比如年龄,学历,收入,信用记录等等。那么银行的工作人员如何根据这些信息判别这个用户是否是诚信的,是否应该通过他的信用卡申请呢?人工的判断显然耗时耗力,且不一定准确,比较靠谱的办法是通过已有的,大量用户的使用记录,分析得到一个模型(或一个方程,一种工具),利用这个模型,可以判别出大原创 2017-03-26 10:16:04 · 9113 阅读 · 1 评论 -
聚类分析: k-means算法
k-means算法聚类分析是数据分析中,非常重要的一类课题。他的作用是将大量的无标签数据通过计算,自动为其标注标签。众所周知,这一点是区别于数据分类技术的。而现实的场景中,无标签的数据显然多于有标签数据,因此,我在这里也是先说聚类,后面的博文,再说分类。聚类的目的,是要将数据归为不同的类,基本原则是要相近的数据尽量归为一类,而不同类之间的数据则要尽量有比较大的差别。说到聚类,当然最先想原创 2017-03-02 15:52:33 · 28382 阅读 · 0 评论 -
朴素贝叶斯分类
之前,我探讨过“决策树归纳”的分类方法,本文我将介绍另一中比决策树更加简单的,用概率方法分类的技术——“朴素贝叶斯分类”。贝叶斯定理贝叶斯定理是概率论中非常简单基础的定理,其解决的核心点在于根据已有信息,对未知事物发生结果的概率计算。就拿分原创 2017-03-28 20:02:55 · 1276 阅读 · 0 评论 -
惰性学习法与kNN分类
惰性学习法我们接触比较多的分类方法,例如决策树,关联规则挖掘,支持向量机,贝叶斯分类,后向传播等等,都可以被称为“急切学习法”,他们接受训练集的信息,在对新的元组(测试集中)进行检验之前,就已经构造好了泛化模型(即分类器),然后根据分类器,直接对新元组分类。所以“急切学习法”的名字很形象:赶紧学(训练之后立即得到分类器),学完之后,直接用(对新元组分类)。现在我要说一种新的分类方法,最近邻...原创 2018-04-13 11:53:35 · 3698 阅读 · 0 评论 -
聚类分析:基于密度聚类的DBSCAN算法
对于簇形状不规则的数据,像k-means(聚类分析: k-means算法)这种基于划分的方法就不再适用了,因为划分方法(包括层次聚类算法)都是用于发现“球状簇”的。比如下面两个图中,Fig.1所示的数据分布用k-means作聚类是没有问题的,但是对于Fig.2就不行了,会把大量的噪声或者离群点也包含在簇中。解决这种任意簇形状的聚类问题,就要采用一种与划分聚类或者层次聚类不同的聚类方法——基于密...原创 2018-05-15 10:09:15 · 20216 阅读 · 5 评论 -
主成分分析(PCA)原理与实现
主成分分析(PCA)是最重要的数据降维的方法之一。针对高维数据的处理时,往往会因为数据的高维度产生大量的计算消耗,为了提高效率,一般最先想到的方法就是对数据降维。与“属性子集选择”的方法(即选择一部分有代表意义的属性直接替代原数据)不同,PCA是通过创建一个由原数据中的属性“组合”而成的,数量较小的变量集合来替代原数据。PCA的基本思想可以这样描述:找出数据的所有属性中最主要的部分,用这个部分...原创 2018-06-27 14:16:19 · 2134 阅读 · 0 评论 -
装袋,AdaBoost和随机森林
装袋,AdaBoost和随机森林都属于组合分类方法的例子,用于改善单个分类模型的学习效果。我们知道,在很多情况下,面对大量复杂的训练元组,如果只使用一种分类模型构造分类器,很可能对于某些元组是有“硬伤”的,预测结果很不准确。所以最直接的思路是将多种分类模型组合起来,通过得到的多个分类器投票判断。好比是有个消息你不知道,去问别人,如果只问一个人,那这个人说的也不一定对吧。但是如果问很多人,以多数...原创 2018-04-17 20:44:30 · 1634 阅读 · 1 评论