机器学习&神经网络
文章平均质量分 74
Wendy冬雪飘
理论为帆,实践为舟。博观约取 厚积薄发。
展开
-
【机器学习】L1正则化与L2正则化的理解
1. 为什么要使用正则化 我们先回顾一下房价预测的例子。以下是使用多项式回归来拟合房价预测的数据: 可以看出,左图拟合较为合适,而右图过拟合。如果想要解决右图中的过拟合问题,需要能够使得 x3,x4 的参数 θ3,θ4 尽量满足 θ3≈0,θ4≈0 。 而如何使得 θ3,θ4 尽可能接近 0 呢?那就是对参数施一惩罚项。我们先来看一下线性回归的代价函数: J(θ)=1...转载 2019-02-27 14:55:42 · 861 阅读 · 0 评论 -
核函数
讲的非常棒,尤其是末尾的小视频,言简意赅!原博文: 1.核函数把低维空间映射到高维空间 下面这张图位于第一、二象限内。我们关注红色的门,以及“北京四合院”这几个字下面的紫色的字母。我们把红色的门上的点看成是“+”数据,紫色字母上的点看成是“-”数据,它们的横、纵坐标是两个特征。显然,在这个二维空间内,“+”“-”两类数据不是线性可分的。 我们现在考虑核函数K(v1,v2)=<v1,...转载 2019-01-18 22:19:52 · 1506 阅读 · 0 评论 -
基础 | batchnorm原理及代码详解
原博文:Batchnorm原理详解 前言:Batchnorm是深度网络中经常用到的加速神经网络训练,加速收敛速度及稳定性的算法,可以说是目前深度网络必不可少的一部分。 本文旨在用通俗易懂的语言,对深度学习的常用算法–batchnorm的原理及其代码实现做一个详细的解读。本文主要包括以下几个部分。Batchnorm主要解决的问题Batchnorm原理解读Batchnorm的优点Batchnor...转载 2018-03-21 10:25:28 · 773 阅读 · 0 评论 -
LSTM 牛津大学机器学习课程
找到牛津大学机器学习课程,里头有基本的LSTM的概述,对我在看论文的时候,会对发展历史、概念和应用等方面有一些相应的补充。 另外,安利一款Iphone store的翻墙软件:Onavo Protect,安装后用手机看YouTube上的公开课毫无压力,很棒!原创 2017-12-17 18:55:17 · 644 阅读 · 0 评论 -
[译] 理解 LSTM 网络
转自原博文 本文译自 Christopher Olah 的博文 Recurrent Neural Networks 人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候,你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃,然后用空白的大脑进行思考。我们的思想拥有持久性。 传统的神经网络并不能做到这点,看起来也像是一种巨大的弊端转载 2017-12-17 16:24:43 · 202 阅读 · 0 评论 -
RNN以及LSTM的介绍和公式梳理
RNN最近做出了很多非常漂亮的成果,比如Alex Graves的手写文字生成、名声大振的『根据图片生成描述文字』、输出类似训练语料的文字等应用,都让人感到非常神奇。这里就不细说这些应用了,我其实也没看过他们的paper,就知道用到了RNN和LSTM而已O(∩_∩)O 本文就假设你对传统的NN很熟悉了,不会的话参考http://ufldl.stanford.edu/wiki/index.php/U转载 2017-12-17 10:03:35 · 259 阅读 · 0 评论 -
读《Nature》论文,看AlphaGo
作者: 龙心尘 && 寒小阳 时间:2016年3月。 出处:http://blog.csdn.net/longxinchen_ml/article/details/50900070 http://blog.csdn.net/han_xiaoyang/article/details/50903562 声明:版权所有,转载请联系作者并注明出处 1.文章声明 博主是围转载 2017-12-11 21:17:50 · 682 阅读 · 0 评论 -
贝叶斯推断&垃圾邮件判别
看到一篇讲贝叶斯的基础博文,两张文恩图就把统计的知识全部理清了。特转载内容如下:转自:贝叶斯推断及其互联网应用(一):定理简介 (一):定理简介 一、什么是贝叶斯推断 贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。 它是贝叶斯定理(Bayes' theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的转载 2017-03-23 17:04:10 · 5133 阅读 · 0 评论 -
LDA-线性判别分析
今天看到一篇非常好的博文(转自:作者:peghoty ,出处: http://blog.csdn.net/itplus/article/details/12035573),我一口气把整篇PDF都看完了。博主给出了线性判别分析(LDA)的入门资料(点击《线性判别分析(LDA)浅析》进行下载),给出了详细的推导过程,一下子就有了直观的理解和感受,非常棒的博文!(另附讲的很精彩的几张截图,以作笔记方便以转载 2017-03-21 20:51:50 · 330 阅读 · 0 评论 -
优化方法总结:SGD,Momentum,AdaGrad,RMSProp,Adam等
原博文: 1. SGD Batch Gradient Descent 在每一轮的训练过程中,Batch Gradient Descent算法用整个训练集的数据计算cost fuction的梯度,并用该梯度对模型参数进行更新: Θ=Θ−α⋅▽ΘJ(Θ) Θ=Θ−α⋅▽ΘJ(Θ) 优点: cost fuction若为凸函数,能够保证收敛到全局最优值;若为非凸函数,能够收敛到局部最优值 ...转载 2019-03-04 23:29:09 · 609 阅读 · 0 评论