Deep Learning
文章平均质量分 56
Daisy_HJL
无论到哪里,都要记得带上自己的阳光!
展开
-
机器学习中的数学知识——概率论
一、随机变量1、概率密度函数二、高斯分布(最美分布)1、一元概率密度2、多远概率密度3、中心极限定理独立同分布的随机变量,求和以后,依概率收敛于高斯分布。一些杂乱无章的情况,加起来却服从高斯分布。三、贝叶斯公式(机器学习中最重要的公式)通常,P(A|B)原创 2017-09-22 17:27:13 · 838 阅读 · 0 评论 -
机器学习中的数学知识——微积分
1、一阶导数和梯度(gradient vector)(加粗的X为向量,为加粗的为标量,下同)2、二阶导数和Hessian矩阵Hessian矩阵是一个对称矩阵3、泰勒级数与极值对比着标量来看可能会容易理解一些。(1)泰勒级数展开(标量):称满足的点为平稳点(候选点),此时如果还有:,xk为一严格局部极小点(反之为严格局部极大点)(充分条件)如果,有原创 2017-09-22 15:47:29 · 562 阅读 · 0 评论 -
交叉熵代价函数
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z转载 2017-09-26 14:03:54 · 699 阅读 · 0 评论 -
CNN之fine-tuning
fine-tuning:使用已用于其他目标、预训练好模型的权重或者部分权重,作为初始值开始训练。为什么要用fine-tuning?自己从头训练卷积神经网络容易出现问题;而用fine-tuning能很快收敛到一个理想的状态。怎么做?复用相同层的权重,新定义层取随机权重初始值;调大新定义层的学习率,调小复用层学习率。原创 2017-09-25 22:08:46 · 3014 阅读 · 0 评论 -
CNN及常用框架
一、神经网络:增加少量隐层(浅层神经网络),增加中间层(深度神经网络,DNN)。神经网络应用在分类问题中效果好,LR或Linear SVM,线性分割都可用于分类。二、卷积神经网络(CNN):卷积神经网络依旧保存了层级结构,但层的功能和形式发生了变化。分别有:数据输入层、卷积计算层、激励层、池化层、全连接层1、数据输入层(Input layer)(1)去均值:把输入数原创 2017-09-25 16:57:22 · 4686 阅读 · 0 评论 -
Batch Normalization(BN)
w的赋值比较困难,稍一赋值不好,就会使得CNN很脆弱,变得特别发散或特别难;我们就得想办法,看能不能约束一下这个w。我们希望激励过后的结果是高斯分布的,手动可以进行修改:首先对每一个维度都独立计算经验均值和方差,再进行标准化。我们也可以想办法让它自动进行修改,而Batch Normalization就可以进行这样的操作。Batch Normalization通常是在全连接层后(原创 2017-09-26 09:46:22 · 949 阅读 · 0 评论 -
梯度下降法
首先我们需要了解得分函数和损失函数,在上一篇文章中有介绍;而我们的核心目标是找到最适合的参数w,使得损失函数取值最小化。这就是最优化的过程。损失函数往往定义在非常高维的空间,一般,我们可以把高维投射到一个向量/方向(1维)或者一个面(2维)上,从而直观地观察到一些变化,这也称为曲线救国。一、凸优化:SVM损失函数是一个凸函数;凸函数的正系数加和仍然是凸函数;但扩充到神经网络之后原创 2017-09-24 17:26:36 · 626 阅读 · 0 评论 -
K最近邻(KNN)
K最近邻(k-Nearest Neighbor,KNN)KNN分类器由两部分组成:(1)训练部分:只是把数据读进去,然后记下来;(2)测试部分:会找到离它最近的N个训练样本,以它们中出现最多的类别作为它的类别。以CIFAR-10为例:# 载入CIFAR-10数据集cifar10_dir = 'julyedu/datasets/cifar-10-batches-py'X_train,原创 2017-09-24 21:28:17 · 661 阅读 · 0 评论 -
反向传播
反向传播,就是利用链式法则求权重的梯度。一、链式法则:比如:函数f(x,y,z)=(x+y)*z:x=-2;y=5;z=-4#前向计算q = x +y #q becomes 3f = q * z # f becomes -12#类反向传播#先算到了f=q*zdfdz = q # df/dz =qdfdq = z # df/dq =z#再计算到了q=x+ydfd原创 2017-09-24 19:34:16 · 441 阅读 · 0 评论 -
图像识别
图片的存储是一个很大的矩阵,如果是一个带颜色的图片,矩阵则是三维的(RGB三个听到)通道,每个通道对应一个矩阵。其中每个数的范围在1~256之间一、图像识别基于图像分类,即有对应的概率。比如一张猫的照片,识别出来,有多高的概率是我们判定的类别1、挑战:(1)视角不同(Viewpoint variation):每个事物旋转或侧视之后,最后的构图可能完全不相同(2)原创 2017-09-24 11:26:55 · 2854 阅读 · 0 评论 -
caffe训练时出错:Unknown bottom blob 'data' (layer 'conv1',bottom index 0)
大多数深度学习的训练是包含训练集的,也有一些不包含验证集的例子中,caffe的配置文件也会存在异同。下面是包含验证集的示例:而在一些无验证集的例子中,则要去掉“TEST”这一层,如下:但是,但你运行的时候,会出现以下错误:Unknown bottom blob 'data' (layer 'conv1',bottom index 0)这个错误的原因是原创 2017-12-28 22:26:31 · 5064 阅读 · 0 评论