机器学习
文章平均质量分 89
GarfieldEr007
这个作者很懒,什么都没留下…
展开
-
支持向量机SVM(五)SMO算法
11 SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for转载 2015-11-27 11:29:27 · 1467 阅读 · 1 评论 -
K-means聚类算法
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设转载 2015-11-27 11:32:44 · 1159 阅读 · 0 评论 -
(EM算法)The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果转载 2015-11-27 11:34:43 · 1114 阅读 · 0 评论 -
混合高斯模型(Mixtures of Gaussians)和EM算法
这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可转载 2015-11-27 11:36:27 · 1466 阅读 · 0 评论 -
主成分分析(Principal components analysis)-最大方差解释
在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题 真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样转载 2015-11-27 11:38:08 · 1270 阅读 · 0 评论 -
支持向量机(三)核函数
7 核函数(Kernels) 考虑我们最初在“线性回归”中提出的问题,特征是房子的面积x,这里的x是实数,结果y是房子的价格。假设我们从样本点的分布中看到x和y符合3次曲线,那么我们希望使用x的三次多项式来逼近这些样本点。那么首先需要将特征x扩展到三维,然后寻找特征和结果之间的模型。我们将这种特征变换称作特征映射(feature mapping)。映射函数称作,在这个例子中转载 2015-11-27 11:25:37 · 1241 阅读 · 0 评论 -
支持向量机SVM(四)
9 规则化和不可分情况处理(Regularization and the non-separable case)我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张转载 2015-11-27 11:26:52 · 1073 阅读 · 0 评论 -
规则化和模型选择(Regularization and model selection)
1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络等模转载 2015-11-27 11:31:22 · 1108 阅读 · 0 评论 -
对线性回归,logistic回归和一般回归的认识
作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。 讲义最初介绍了一个基本问题,然后引出了线转载 2015-11-27 11:40:52 · 1945 阅读 · 0 评论 -
对话机器学习大神Yoshua Bengio(上)
Yoshua Bengio教授(个人主页)是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton老先生以及 Yann LeCun(燕乐存)教授,缔造了2006年开始的深度学习复兴。他的研究工作主要聚焦在高级机器学习方面,致力于用其解决人工智能问题。他是仅存的几个仍然全身心投入在学术界的深度学习教授之一,好多其他教授早已投身于工业界,加入了谷歌或Facebook公司。转载 2015-12-29 13:09:46 · 1344 阅读 · 0 评论 -
对话机器学习大神Yoshua Bengio(下)
Yoshua Bengio教授(个人主页)是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton老先生以及 Yann LeCun(燕乐存)教授,缔造了2006年开始的深度学习复兴。他的研究工作主要聚焦在高级机器学习方面,致力于用其解决人工智能问题。他是仅存的几个仍然全身心投入在学术界的深度学习教授之一,好多其他教授早已投身于工业界,加入了谷歌或Facebook公司。转载 2015-12-29 13:11:11 · 1413 阅读 · 0 评论 -
K Nearest Neighbor 算法
K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,有一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算转载 2015-12-15 12:31:06 · 1034 阅读 · 0 评论 -
K-Means 算法
最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家。在数据挖掘中, k-Means 算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Mea转载 2015-12-15 12:32:41 · 867 阅读 · 0 评论 -
Machine Learning week 7 quiz: programming assignment-Support Vector Machines
一、ex6.m%% Machine Learning Online Class% Exercise 6 | Support Vector Machines%% Instructions% ------------% % This file contains code that helps you get started on the% exercise. You wil原创 2015-11-27 11:17:23 · 7837 阅读 · 0 评论 -
Machine Learning week 8 quiz: programming assignment-K-Means Clustering and PCA
一、ex7.m%% Machine Learning Online Class% Exercise 7 | Principle Component Analysis and K-Means Clustering%% Instructions% ------------%% This file contains code that helps you get started原创 2015-11-27 15:47:40 · 7720 阅读 · 2 评论 -
Machine Learning week 9 quiz: Anomaly Detection
Anomaly Detection5 试题1. For which of the following problems would anomaly detection be a suitable algorithm?Given data from credit card transa原创 2015-11-27 16:48:51 · 15580 阅读 · 5 评论 -
Recognizing and Localizing Endangered Right Whales with Extremely Deep Neural Networks
In this post I’ll share my experience and explain my approach for the Kaggle Right Whale challenge. I managed to finish in 2nd place.1. BackgroundRight whale is an endangered species with fe转载 2016-01-17 21:55:22 · 2458 阅读 · 0 评论 -
【机器学习】Logistic Regression 的前世今生(理论篇)
Logistic Regression 的前世今生(理论篇)本博客仅为作者记录笔记之用,不免有很多细节不对之处。还望各位看官能够见谅,欢迎批评指正。博客虽水,然亦博主之苦劳也。如需转载,请附上本文链接,不甚感激! http://blog.csdn.net/cyh_24/article/details/50359055写这篇博客的动力是源于看到了下面这篇微转载 2016-01-18 15:05:48 · 1718 阅读 · 0 评论 -
【论文笔记】SparkNET: 用Spark训练深度神经网络
SparkNet: Training Deep Network in Spark原文是:《SparkNet: Training Deep Network in Spark》本博客是该论文的阅读笔记,不免有很多细节不对之处。还望各位看官能够见谅,欢迎批评指正。更多相关博客请猛戳:http://blog.csdn.net/cyh_24如需转载,请附上本文链接:http://转载 2016-01-18 15:08:03 · 1223 阅读 · 0 评论 -
Theano深度学习入门
/* Author: cyh_24 *//* Date: 2014.10.2 *//* Email: cyh@buaa.edu.cn *//* More: http://blog.csdn.net/cyh_24 */最近,研究的关注点在以图搜图 这块,近期这块内容的比赛较多,为了不拖师兄的后腿太多,决定潜心研究DeepLearning,主要以Theano官方教程转载 2016-01-18 15:34:22 · 1232 阅读 · 0 评论 -
caffe配置中的一些问题
一直想将DL用于自己目前研究的image retrieval中,实际上,本小子在之前的博文Deep Learning for Content-Based Image Retrieval关于用DL做检索的paper也做了些调研。可以看出,虽然DL现在很火,但是将其用于image retrieval似乎还并不多。这连天正好忙里偷闲,在Ubuntu12.04中把caffe捣鼓了一番,成功,只能说配置转载 2015-12-31 14:33:46 · 9418 阅读 · 2 评论 -
谱聚类算法(Spectral Clustering)
谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以是分割规模差不多且割边最小的分割——如图1的Best cut(如后文的Norma转载 2016-01-01 08:24:27 · 1836 阅读 · 0 评论 -
谱聚类
最近忙着写文章,好久不写博客了。最近看到一个聚类方法--谱聚类,号称现代聚类方法,看到它简洁的公式推导、实现代码,不禁要尝试一把。关于它的理论,google一搜有很多博客讲,这里就不赘述了,反正最后还是归结为一个SVD分解问题,参考网址如下http://www.cnblogs.com/phinecos/archive/2009/05/11/1453853.htmlhttp:转载 2016-01-01 08:25:07 · 2487 阅读 · 2 评论 -
聚类图像像素 Clustering Pixels Using K-Means
在K-Means Using Python中,给出了一个用K-Means聚类的tutorial,这次将K-Means用在具体图像像素聚类中,需要说明的是除了在很简单的图像上,单纯在像素值上应用K-Means给出的结果是毫无意义的。要产生有意义的结果,需要更多复杂的类模型或空间一致性而不是平均像素色彩。这里,我们仅仅在RGB三通道像素值上运用K-Means,关于图像分割问题会在后面的学习过程中将给出转载 2016-01-01 08:27:11 · 6663 阅读 · 0 评论 -
聚类 K-Means Using Python
最近在翻译《Programming Computer Vision with Python》第六章Clustering Images图像聚类,其中用到了k-means聚类算法,这里根据书中给出的实例对用python进行k-means聚类做一些解释。关于k-means聚类算法的原理,这里不细述,具体原理可以查阅相关资料。K-means是聚类算法中最简单的一种聚类算法,它试着将输入数据划分成k转载 2016-01-01 08:27:14 · 2653 阅读 · 1 评论 -
典型关联分析(Canonical Correlation Analysis)
[pdf版本] 典型相关分析.pdf1. 问题 在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。其中,。然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。 当然我们仍然可以使用回归的方法来分析,做法如下: 假设,,那么可以建立等式Y=AX如下转载 2016-01-19 12:39:38 · 3021 阅读 · 0 评论 -
机器学习——深度学习(Deep Learning)
Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得。Key Words:有监督学习与无监督学习,分类、回归,密度估计、聚类,深度学习,Sparse DBN,1. 有监督学习和无监督学习给定一组数据(inpu转载 2016-01-02 12:32:05 · 1418 阅读 · 0 评论 -
初识压缩感知Compressive Sensing
压缩感知是近年来极为热门的研究前沿,在若干应用领域中都引起瞩目。最近粗浅地看了这方面一些研究,对于Compressive Sensing有了初步理解,在此分享一些资料与精华。本文针对陶哲轩和Emmanuel Candes上次到北京的讲座中对压缩感知的讲解进行讲解,让大家能够对这个新兴领域有一个初步概念。compressive sensing(CS) 又称 compressive转载 2016-01-02 12:33:11 · 1340 阅读 · 0 评论 -
压缩感知进阶——有关稀疏矩阵
上一篇《初识压缩感知Compressive Sensing》中我们已经讲过了压缩感知的作用和基本想法,涉及的领域,本文通过学习陶哲轩对compressive sensing(CS)的课程,对压缩感知做进一步理解,针对其原理做出讲解。本文较为理论性,代码请参考《“压缩感知”之“Hello world”》。Keywords: 压缩感知 compressive sensing, 稀疏(Spa转载 2016-01-02 12:35:05 · 1561 阅读 · 0 评论 -
LibSVM 在matlab中的使用
搞了一天,看了很多资料,终于搞好了matlab中调用大牛写好的svm库,将结果告诉大家避免以后走弯路。1. 参考网站:libsvm库下载:http://www.csie.ntu.edu.tw/~cjlin/libsvm/视频:http://v.youku.com/v_showMini/id_XMjc2NTY3MzYw_ft_131.html (有小问题,等下会提到)转载 2016-01-02 12:36:02 · 1187 阅读 · 0 评论 -
GMM的EM算法实现
在 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我们给出了GMM算法的基本模型与似然函数,在EM算法原理中对EM算法的实现与收敛性证明进行了详细说明。本文主要针对如何用EM算法在混合高斯模型下进行聚类进行代码上的分析说明。1. GMM模型:每个 GMM 由 K 个 Gaussian 分布组成,每转载 2016-01-02 12:37:13 · 1190 阅读 · 0 评论 -
无监督特征学习——Unsupervised feature learning and deep learning
无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优于其他方法进行training。本文将主要针对Andrew的unsupervised learning,结合他的视频:unsupervised feature learning by Andr转载 2016-01-02 12:39:41 · 1327 阅读 · 0 评论 -
决策树Decision Tree 及实现
本文基于python逐步实现Decision Tree(决策树),分为以下几个步骤:加载数据集熵的计算根据最佳分割feature进行数据分割根据最大信息增益选择最佳分割feature递归构建决策树样本分类关于决策树的理论方面本文几乎不讲,详情请google keywords:“决策树 信息增益 熵”将分别体现于代码。本文只建一个.py文件,所有代码转载 2016-01-02 12:44:13 · 1581 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
数学之美番外篇:平凡而又神奇的贝叶斯方法By 刘未鹏(pongba)C++的罗浮宫(http://blog.csdn.net/pongba)TopLanguage(http://groups.google.com/group/pongba)概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛转载 2015-12-17 21:44:23 · 1016 阅读 · 0 评论 -
聚类(序)——监督学习与无监督学习
聚类系列:聚类(序)----监督学习与无监督学习聚类(1)----混合高斯模型 Gaussian Mixture Model 聚类(2)----层次聚类 Hierarchical Clustering 聚类(3)----谱聚类 Spectral Clustering--------------------------------转载 2016-01-03 19:13:30 · 1845 阅读 · 0 评论 -
聚类(1)——混合高斯模型 Gaussian Mixture Model
聚类系列:聚类(序)----监督学习与无监督学习聚类(1)----混合高斯模型 Gaussian Mixture Model 聚类(2)----层次聚类 Hierarchical Clustering 聚类(3)----谱聚类 Spectral Clustering--------------------------------转载 2016-01-03 19:14:36 · 1384 阅读 · 0 评论 -
聚类(2)——层次聚类 Hierarchical Clustering
聚类系列:聚类(序)----监督学习与无监督学习聚类(1)----混合高斯模型 Gaussian Mixture Model 聚类(2)----层次聚类 Hierarchical Clustering 聚类(2*)----k-means如何训练很大的码书聚类(3)----谱聚类 Spectral Clustering-------------转载 2016-01-03 19:16:00 · 1284 阅读 · 0 评论 -
迁移学习&自我学习
最近在看Ng的深度学习教程,看到self-taught learning的时候,对一些概念感到很陌生。作为还清技术债的一个环节,用半个下午的时间简单搜了下几个名词,以后如果会用到的话再深入去看。 监督学习在前一篇博客中讨论过了,这里主要介绍下迁移学习、自我学习。因为监督学习需要大量训练样本为前提,同时对训练样本的要求特别严格,要求训练样本与测试样本来自于同一分布。要是满足不了转载 2016-01-03 19:25:14 · 953 阅读 · 0 评论 -
K-Means聚类 K-Means Clustering
K-Means ClusteringThe AlgorithmK-means (MacQueen, 1967) is one of the simplest unsupervised learning algorithms that solve the well known clustering problem. The procedure follows a simple and转载 2016-01-04 18:56:17 · 3294 阅读 · 0 评论 -
模糊C-Means聚类 Fuzzy C-Means Clustering
Fuzzy C-Means ClusteringThe AlgorithmFuzzy c-means (FCM) is a method of clustering which allows one piece of data to belong to two or more clusters. This method (developed by Dunn in 1973 and转载 2016-01-04 18:57:58 · 6028 阅读 · 0 评论