机器学习
文章平均质量分 61
断腿小胖子
多多交流学习
展开
-
最大似然估计和最大后验概率估计的理解与求解
1. 最大似然估计的理解最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。但别急,我们先从概率和统计的区别讲起。概率和统计是一个东西...原创 2020-05-12 16:55:15 · 5516 阅读 · 0 评论 -
信息熵,交叉熵,相对熵,KL散度
熵,信息熵在机器学习和深度学习中是十分重要的。那么,信息熵到底是什么呢? 首先,信息熵是描述的一个事情的不确定性。比如:我说,太阳从东方升起。那么这个事件发生的概率几乎为1,那么这个事情的反应的信息量就会很小。如果我说,太阳从西方升起。那么这就反应的信息量就很大了,这有可能是因为地球的自转变成了自东向西,或者地球脱离轨道去到了别的地方,那么这就可能导致白天变成黑夜,热带雨林将...原创 2020-05-07 11:40:22 · 563 阅读 · 0 评论 -
few-shot learning 1.1——零样本学习
few-shot learning 1.1——初识零样本学习1. 什么是few-shot learning 小样本学习问题是指只给定目标少量训练样本的条件下,如何训练一个可以有效地识别这些目标的机器学习模型。按照训练样本的多少可以将小样本学习分为三类:1)只有一个训练样本,这种学习方法我们称为单样本学习(one-shot ...原创 2020-02-27 18:05:06 · 622 阅读 · 0 评论 -
BP算法详谈
反向传播BP模型学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中,学习算法的研究有着十分重要的地位。目前,人们所提出的神经网络模型都是和学习算 法相应的。所以,有时人们并不去祈求对模型和算法进行严格的定义或区分。有的模型可以有多种算法.而有的算法可能可用于多种模型。不过,有时人们也称算法 为模型。自从40年代Hebb提出的学习规则以来,人们相继提出了各种各转载 2015-07-07 16:05:56 · 9194 阅读 · 2 评论 -
机器学习,计算机视觉相关资料
Deep Learning(深度学习)ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):一ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):二Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考,很不错。deeplearning.net主页,里面包含的转载 2015-11-19 11:46:32 · 804 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0、L1与L2范数今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 监督机器学习问题无非就是“转载 2015-03-06 11:19:48 · 592 阅读 · 0 评论 -
BP神经网络及matlab实现
本文主要内容包括: (1) 介绍神经网络基本原理,(2) AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。转载 2015-09-21 21:46:22 · 1675 阅读 · 2 评论 -
Armijo线搜索
用“人话”解释不精确线搜索中的Armijo-Goldstein准则及Wolfe-Powell准则line search(一维搜索,或线搜索)是最优化(Optimization)算法中的一个基础步骤/算法。它可以分为精确的一维搜索以及不精确的一维搜索两大类。在本文中,我想用“人话”解释一下不精确的一维搜索的两大准则:Armijo-Goldstein准则 & Wolfe-Powell准转载 2015-09-01 20:47:03 · 22601 阅读 · 6 评论 -
反向传播算法(BP)
BP算法浅谈(Error Back-propagation)通过带*的权重值重新计算误差,发现误差为0.18,比老误差0.19小,则继续迭代,得神经元的计算结果更加逼近目标值0.5 感想 在一个复杂样本空间下,对输入和输出进行拟合(1) 多少个hidden unit才能符合需要(hidde转载 2015-06-07 23:43:44 · 891 阅读 · 3 评论 -
SVM
支持向量机(SVM)基础 一、线性分类器: 首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线) 假如说,我们令黑色的点 = -1, 白色的点 = +1,直线f(x) = w.x + b,这儿的x、w是向量,其实写成这种形式也是等价的f(x) =转载 2015-03-08 10:14:49 · 511 阅读 · 0 评论 -
稀疏表示介绍(上)
稀疏表示介绍(上) 声明 主要学习资料是 Coursera 上 Duke 大学的公开课——Image and video processing, by Pro.Guillermo Sapiro 第 9 课。 1. Denoising (去噪)与 MAP故事从 denoising 说起,话说手头上有一张含有噪音的图片Lena(http://blog.转载 2015-03-24 19:32:37 · 1239 阅读 · 0 评论 -
SVM(二)从拉格朗日对偶问题到SVM
2 拉格朗日对偶(Lagrange duality) 先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题: 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 L是等式约束的个数。 然后分别对w和求偏导,使得偏转载 2016-02-25 11:22:50 · 4401 阅读 · 1 评论 -
SVM(三) SMO优化算法求解
SMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Tra转载 2016-02-25 16:14:08 · 1291 阅读 · 0 评论 -
RPCA(续)
Robust PCA 1. RPCA Brief Introduction1. Why use Robust PCA?Solve the problem withspike noise with high magnitude instead of Gaussian distributed noise.2. Main Problem转载 2016-02-23 22:08:26 · 4989 阅读 · 1 评论 -
SVM(一) 问题的提出
SVM(一) 问题的提出SVM是支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。我看了一下网上的帖子和有关的资料,目前关于SVM大约有3到4个版本,但在网上到处都是转载的内容,最后谁叶不知原稿人是谁。svm主要分有4个问题转载 2016-02-25 10:45:21 · 672 阅读 · 0 评论 -
KSVD
K-SVD是一个用于稀疏表示的字典学习算法,是一个迭代算法,是K-Means算法的泛化。对于问题(1)K-SVD的算法流程如下:I)固定字典,利用追踪算法(Pursuit Algorithm)求得(近似)最优的系数矩阵;II)每次更新一个列(用SVD求解),固定字典的其它所有的列。计算新的列及其相对应系数,使得问题(1)最小化;III转载 2016-11-05 20:56:26 · 7248 阅读 · 2 评论 -
核PCA——从理论到实现
核PCA——从理论到实现1. PCA方法:设X=[x1,x2,…xN],x∈Rd,为d维样本空间的N个向量h=i。协方差矩阵:C=1NXXT可以做特征值分解C=UΛUT,其中U为特征矩阵,Λ是特征值矩阵。若只保留k个维度,只需要以k个特征向量为基矢,将所有的向量向他们投影,就可以了。对于二维的情况如下图(来自wikipedia,[2])转载 2015-05-29 09:46:32 · 7561 阅读 · 2 评论 -
机器学习问题方法总结
机器学习问题方法总结转自 http://www.cnblogs.com/zhangchaoyang/archive/2012/08/28/2660929.htmlData Mining机器学习问题方法总结大类名称关键词有监督分类决策树信息增益转载 2015-05-22 00:00:01 · 443 阅读 · 0 评论 -
机器学习中有关数学的一些推荐书籍
数学学习(林达华原著) 这里说说几本我看过后觉得不错的数学教科书。1. 线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是Introd转载 2015-05-06 08:40:44 · 2715 阅读 · 0 评论 -
矩阵论基础知识5(病态矩阵与条件数 )
病态矩阵与条件数 1. 病态系统现在有线性系统: Ax = b, 解方程很容易得到解为: x1 = -100, x2 = -200. 如果在样本采集时存在一个微小的误差,比如,将 A 矩阵的系数 400 改变成 401:则得到一个截然不同的解: x1 = 40000, x2 = 79800.当解集 x 对 A 和 b 的系数高度敏感,那么这样的方程组就是病态的转载 2015-03-25 19:17:57 · 34222 阅读 · 15 评论 -
机器学习&数据挖掘笔记_15(关于凸优化的一些简单概念)
没有系统学过数学优化,但是机器学习中又常用到这些工具和技巧,机器学习中最常见的优化当属凸优化了,这些可以参考Ng的教学资料:http://cs229.stanford.edu/section/cs229-cvxopt.pdf,从中我们可以大致了解到一些凸优化的概念,比如凸集,凸函数,凸优化问题,线性规划,二次规划,二次约束二次规划,半正定规划等,从而对凸优化问题有个初步的认识。以下是几个重要相关概转载 2015-03-05 10:47:03 · 1147 阅读 · 0 评论 -
机器学习中的范数规则化之(二)核范数与规则项参数选择以及RPCA
机器学习中的范数规则化之(二)核范数与规则项参数选择三、核范数 核范数||W||*是指矩阵奇异值的和,英文称呼叫Nuclear Norm。这个相对于上面火热的L1和L2来说,可能大家就会陌生点。那它是干嘛用的呢?霸气登场:约束Low-Rank(低秩)。OK,OK,那我们得知道Low-Rank是啥?用来干啥的? 我们先来回忆下线性代数里面“秩”到底是啥转载 2015-03-06 11:36:09 · 2091 阅读 · 0 评论 -
计算机视觉、机器学习相关领域论文和源代码大集合
计算机视觉、机器学习相关领域论文和源代码大集合注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。一、特征提取Feature Extraction:· SIFT [1] [Demo program][SIFT Library] [VLFeat]·转载 2015-03-06 15:58:58 · 516 阅读 · 0 评论 -
机器学习基础:最优化方法
之前学习机器学习和数据挖掘的时候,很多都是知道这些算法的设计机制,对数学推导和求解过程依然是一知半解,最近看了一些机器学习算法的求解和各种优化算法,也发现了这些算法设计和公式推导背后的数学精妙之处和随处可见的最优化的影子。还是决定从最优化理论开始补起,我参考了最优化的基础,先总结了凸函数、hessian矩阵、泰勒展开、拉格朗日乘子、对偶函数,随后介绍了最优化中常用的梯度下降法、牛顿法、共轭梯度法、转载 2015-03-06 16:20:41 · 1467 阅读 · 0 评论 -
矩阵的奇异值分解
矩阵的奇异值分解矩阵的奇异值分解证明过程中会用到五个定理,先作为补充知识展示这五个定理:定理一:A是对称矩阵,则不同特征值对应的特征向量是正交的。————————————————————————————————————————————————————————————————————————————定理二:矩阵和它的转置具有相同的特征值证明:因为:转载 2015-03-07 10:39:11 · 844 阅读 · 0 评论 -
LDA & PCA
本次的内容主要是以推导数学公式为主,都是从算法的物理意义出发,然后一步一步最终推导到最终的式子,LDA和PCA最终的表现都是解一个矩阵特征值的问题,但是理解了如何推导,才能更深刻的理解其中的含义。本次内容要求读者有一些基本的线性代数基础,比如说特征值、特征向量的概念,空间投影,点乘等的一些基本知识等。除此之外的其他公式、我都尽量讲得更简单清楚。LDA: LDA的全称是Line转载 2015-03-08 09:59:24 · 530 阅读 · 0 评论 -
机器学习概要
机器学习概要 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻 这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,转载 2015-03-07 20:02:34 · 763 阅读 · 0 评论 -
Robust PCA
Robust PCA 1. RPCA 简介1. 1 为什么使用RPCA?求解被高幅度尖锐噪声而不是高斯分布噪声污染的信号分离问题。1.2 主要问题给定C = A*+B*, 其中A*是稀疏的尖锐噪声矩阵,B* 是低秩矩阵, 目的是从C中恢复B*.B*= UΣV’, 其中U∈Rn*k ,Σ∈Rk*k ,V∈Rn*k3. 与PCA原创 2015-03-09 09:08:06 · 1509 阅读 · 0 评论 -
稀疏表达:向量、矩阵与张量(中)
在开始正文之前,咱首先得说明一下,这篇东西偏向于理论,各位看官可以自行跳过某些部分。这方面的工作奠基人同样也是compressive sensing的大牛之一E.J Candes(Donoho的得意门生),以及Candes的学生Ben Recht,前者刚从caltech被挖到stanford,后者目前刚到wisconsin做AP。Candes大牛,stanford统计系出生,师从Donoho。转载 2015-03-09 20:56:30 · 748 阅读 · 0 评论 -
稀疏表达:向量、矩阵与张量(上)
稀疏表达:向量、矩阵与张量(上)稀疏表达是近年来SP, ML, PR, CV领域中的一大热点,文章可谓是普天盖地,令人目不暇给。老板某门课程的课程需要大纲,我顺道给扩展了下,就有了这个上中下三篇介绍性质的东西。遗憾的是,我在绝大多数情况下实在不算是一个勤快的人,这玩意可能充满bug,更新也可能断断续续,尽请诸位看官见谅了。顺道一提,ICCV09有一个相关的 tutorial。转载 2015-03-09 21:00:02 · 568 阅读 · 0 评论 -
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说w转载 2015-03-06 16:24:49 · 496 阅读 · 0 评论 -
矩阵论基础知识2(正交、 Givens 变换、Householder变换)
机器学习中的矩阵方法02:正交 说明:Matrix Methods in Data Mining and Pattern Recognition 读书笔记 1. 正交的一些概念和性质在前一章的最小二乘的问题中,我们知道不恰当的基向量会出现条件数过大,系统防干扰能力差的现象,这实际上和基向量的正交性有关。两个向量的内积如果是零, 那么就说这两个向量是正交的,在三维空间转载 2015-03-23 09:03:45 · 27607 阅读 · 0 评论 -
几种常用的优化方法梯度下降法、牛顿法、)
几种常用的优化方法1. 前言熟悉机器学习的童鞋都知道,优化方法是其中一个非常重要的话题,最常见的情形就是利用目标函数的导数通过多次迭代来求解无约束最优化问题。实现简单,coding 方便,是训练模型的必备利器之一。 2. 几个数学概念1) 梯度(一阶导数)考虑一座在 (x1, x2) 点高度是 f(x1, x2) 的山。那么,某一点的梯度方向是在该点坡度转载 2015-03-23 10:32:22 · 19568 阅读 · 1 评论 -
稀疏表示介绍(中)
稀疏表示介绍(中) 声明主要学习资料是 Coursera 上 Duke 大学的公开课——Image and video processing, by Pro.Guillermo Sapiro 第 9 课。1. Uniqueness假设我们已知字典矩阵 D 和稀疏向量 a, 计算出一个信号 x,即 Da = x, x 存在一个关于 D 的稀疏表示。反过来现转载 2015-03-24 19:57:57 · 1970 阅读 · 0 评论 -
稀疏表示介绍(下)
稀疏表示介绍(下)声明主要学习资料是 Coursera 上 Duke 大学的公开课——Image and video processing, by Pro.Guillermo Sapiro 第 9 课。 1. From Local to Global Treatment图片尺寸有大有小,在 DCT 变换中,我们一般取 8×8 的方块作为一组 64 维的变转载 2015-03-24 21:02:51 · 972 阅读 · 0 评论 -
机器学习中距离和相似性度量方法
机器学习中距离和相似性度量方法 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0转载 2015-04-08 10:50:33 · 968 阅读 · 0 评论 -
矩阵论基础知识4——强大的矩阵奇异值分解(SVD)及其应用
强大的矩阵奇异值分解(SVD)及其应用版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异转载 2015-03-07 16:40:33 · 2452 阅读 · 0 评论