机器学习
isMarvellous
这个作者很懒,什么都没留下…
展开
-
在caffe中添加新层 L1 Loss layer
本文地址:http://blog.csdn.net/ismarvellous/article/details/79069661,转载请注明出处。本文涉及的所有完整文件可在我的github下载。1. L1 Loss的计算推导与欧式距离(L2 Loss)相似,L1 Loss也是两个输入向量直接距离的一种度量。但L2 Loss的梯度在接近零点的时候梯度值也会接近于0,使学习进程变慢,而L1 ...原创 2018-01-15 22:38:09 · 3377 阅读 · 7 评论 -
生成学习算法(Generative Learning Algorithms)
今天我们来聊一聊生成学习算法,内容主要包括生成模型和判别模型的比较,以及生成学习算法的一个例子——高斯判别分析(Gaussian Discriminant Analysis, GDA)。1. 生成模型和判别模型 前面我们讨论的学习算法(线性回归、逻辑回归、softmax等)都有一个共同点,那就是我们都在想方设法求出p(y|x;θ)p(y|x;\theta),也就是说,给定特征x,我们直接求出y的条原创 2016-04-22 19:23:41 · 10708 阅读 · 0 评论 -
逻辑回归(Logistic Regression)
趁着现在有空再写一篇吧,以后忙起来可能就更新得慢了。 前面我们讨论了回归问题,下面我们来说一说分类问题。Logistic function 先从最简单的二值分类(binary classification)问题说起,也就是说y只能取1或者0两个值,其中,0称为负类别(negative class),1称为正类别(positive class),也可以分别用“-”号和“+”号表示。 如果原创 2016-04-10 22:34:07 · 3272 阅读 · 0 评论 -
梯度下降法(Gradient Descent)
第一次写博客,好激动啊,哈哈。之前看了许多东西但经常是当时花了好大功夫懂了,但过一阵子却又忘了。现在终于决定追随大牛们的脚步,试着把学到的东西总结出来,一方面梳理思路,另一方面也作为备忘。接触机器学习不久,很多东西理解的也不深,文章中难免会有不准确和疏漏的地方,在这里和大家交流,还望各位不吝赐教。 (又加了一部分代价函数的概率解释——2016.4.10)原创 2016-04-08 18:20:09 · 9759 阅读 · 10 评论 -
广义线性模型(Generalized Linear Models, GLM)
上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系,到底是什么关系呢?我们就来探讨一下吧。(这一篇数学推导占了大多数,可能看起来会略有枯燥,但这本身就是一个把之前算法统一起来的抽象模型,从一个更高的角度给出了一个更具泛化能力的方法,还是很有意义的。)1. 指数分布族 首先,我们先来定义指数分布族(exponential family),如果一类分布可以写成如下的形式,那么它就是属于指原创 2016-04-13 20:33:25 · 11011 阅读 · 1 评论 -
论文阅读:Batch Normalization——加速网络训练
今天就先聊一聊Batch Normalization,这是一种能够大大提高深度神经网络训练速度的方法。虽然是15年发表的,也不是很久,但已经被大家广泛使用了,其作用和重要性可见一斑。这里就记录一下我阅读这篇文章*Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift*的理解吧。原创 2016-11-18 22:26:32 · 2587 阅读 · 0 评论 -
神经网络的可解释性——Network Dissection: Quantifying Interpretability of Deep Visual Representations
本文是周博磊大神CVPR 2017年的文章,主要关注网络的可解释性。神经网络的可解释性一直是一个很有趣也很有用的东西。很多情况下大家都把神经网络作为一个黑箱来用,而近年来也有越来越多的工作希望能够探索神经网络到底学习到了什么,比如利用deconvolution进行可视化,周博磊去年的Learning Deep Features for Discriminative Localization等。原创 2017-07-23 11:52:48 · 21809 阅读 · 3 评论 -
概率图模型理解
今天在看《Deep Learning》时候看到了概率图模型,但上面并没有详细介绍,考虑到有很多模型其实都是概率图模型,比如贝叶斯网络、隐马尔科夫模型(HMM)、条件随机场(CRF)等等,应用还挺广泛的,于是就去学习一下到底什么是概率图模型。本文主要参考了《Pattern Recognition and Machine Learning》,如果有什么理解不到位的地方,还请大家指教。概述为什么会有概率图原创 2017-12-17 22:24:17 · 14369 阅读 · 2 评论 -
详解softmax与softmax loss的前后向推导及caffe源码实现
本文地址:http://blog.csdn.net/isMarvellous/article/details/78735208,转载请注明出处。Softmax层的作用是将输入的预测向量转化为概率值,也就是每个元素介于0和1之间,其和为1。而Softmax loss是基于Softmax的输出,使用多元交叉熵损失函数得到的loss。下面我们来讨论一下他们其中的正向和反向导数推导,以及caffe中的原创 2017-12-06 21:07:27 · 2554 阅读 · 0 评论