2016年05月_bea_tree

原创 CS231n 卷积神经网络与计算机视觉 11 卷积神经网络的迁移学习和微调

1 迁移学习实际中很少有人从头开始训练一个卷积神经网络，一般来说没有足够的可用的数据. 反而一般使用大数据集已经训练过的ConvNet来作为初始模型或者直接作为固定特征的提取器，以下是三种迁移学习的情景： 1. ConvNet as fixed feature extractor. 拿来训练好的网络将最后一层全连接层（分类用）去掉然后将剩下的部分看做一个特征提取器，在AlexNet the

2016-05-30 00:30:12 5227

原创 CS231n 卷积神经网络与计算机视觉 10 卷积神经网络学了些什么？

本章是Stanford cs231n正在草拟的一章，主要将ConvNets可视化，进一步理解卷积神经网络。1 可视化激活值和第一层权重激活值最直接的可视化就是展示网络在向前传播时的激活值，ReLU 为激活函数的网络中开始时激活值一般是点状物比较多比较分散，但是当训练后就会比较稀疏集中于局部了. 但是要注意如果有些激活值对很多不同的输入得到的是都全黑, 就可能意味着这是filte

2016-05-30 00:28:54 3480

原创 CS231n 卷积神经网络与计算机视觉 9 卷积神经网络结构分析

终于进入我们的主题了ConvNets或者CNNs，它的结构和普通神经网络都一样，之前我们学习的各种技巧方法都适用，其主要不同之处在于： ConvNet假定输入的是图片，我们根据图片的特性对网络进行设定以达到提高效率，减少计算参数量的目的。1. 结构总览首先我们分析下传统神经网络对于图片的处理，如果还是用CIFAR-10上的图片，共3072个特征，如果普通网络结构输入那么第一层的每一个

2016-05-30 00:27:31 11857 4

原创 CS231n 卷积神经网络与计算机视觉 8 手把手实现神经网络分类

本章将实现一个简单的两层神经网络，主要分两步走： 1. 实现线性分类器 2. 改变成神经网络1 生成数据我们先生成一个螺旋性的数据集，Python代码：N = 100 # number of points per classD = 2 # dimensionalityK = 3 # number of classesX = np.zeros((N*K,D)) # data matrix (

2016-05-29 03:03:54 5810 8

原创 CS231n 卷积神经网络与计算机视觉 7 神经网络训练技巧汇总梯度检验参数更新超参数优化模型融合等

前面几章已经介绍了神经网络的结构、数据初始化、激活函数、损失函数等问题，现在我们该讨论如何让神经网络模型进行学习了。1 梯度检验权重的更新梯度是否正确决定着函数是否想着正确的方向迭代，在UFLDL中我们提到过，计算时梯度公式如果计算错误是不容被察觉的，我们需要比较分析法得到梯度与数值法得到的梯度是否相似，下面是一些技巧：1.1 centered formula高等数学中我们知道导数的近似公式： d

2016-05-28 23:06:02 12492 6

原创 CS231n 卷积神经网络与计算机视觉 6 数据预处理权重初始化规则化损失函数等常用方法总结

1 数据处理首先注明我们要处理的数据是矩阵X，其shape为[N x D] (N =number of data, D =dimensionality).1.1 Mean subtraction 去均值去均值是一种常用的数据处理方式.它是将各个特征值减去其均值，几何上的展现是可以将数据的中心移到坐标原点，Python中的代码是 X -= np.mean(X, axis = 0). 对于

2016-05-28 04:50:28 27535 6

原创 cs231n 卷积神经网络与计算机视觉 5 神经网络基本结构激活函数总结

简介神经网络中的神经元的灵感来源于人脑，人体中大约有860亿个神经元，大约有 10^14 - 10^15 突触（synapses）. 每个神经元由树突dendrites接收信号轴突axon发射信号. 轴突又连接到其他神经单元的树突.突触强度synaptic strengths (权重w) 可以经过学习控制输入信号的输出是抑制还是激活( excitory (positive weight)

2016-05-28 04:48:51 12666

原创 cs231n 卷积神经网络与计算机视觉 4 Backpropagation 详解反向传播

反向传播backpropagation是递归（recursive）调用求导链式法则（chain rule）来求导的过程，对他的理解对于神经网络的应用很重要。反向传播 backpropagation反向传播在UFLDL中的介绍已经较为具体（http://blog.csdn.net/bea_tree/article/details/51174776），这里仅作补充。原文简要介绍了求导与链式求导的

2016-05-25 22:51:20 3443

原创 CS231n 卷积神经网络与计算机视觉 3 最优化与随机梯度下降

上节中我们已经接触到了图像识别中的两部分score function和 loss function，这节将会引入对loss function的优化求解，也就是optimization。为了求解loss function我们首先将loss function 可视化Visualizing the loss function一般来说在图像处理的时候我们结果的数据都是多维的，前面CIFAR-10 的图片有3

2016-05-25 17:21:25 4073 2

原创 cs231n 卷积神经网络与计算机视觉 2 SVM softmax

linear classification上节中简单介绍了图像分类的概念，并且学习了费时费内存但是精度不高的knn法，本节我们将会进一步学习一种更好的方法，以后的章节中会慢慢引入神经网络和convolutional neural network。这种新的算法有两部分组成： 1. 评价函数score function，用于将原始数据映射到分类结果 2. 损失函数loss function，用于定

2016-05-25 01:56:35 7632 4

原创 cs231n 卷积神经网络与计算机视觉 1 基础梳理与KNN图像分类

本导论主要介绍了图像分类问题及数据驱动方法。图像分类问题 image classification图像的分类问题简单来说就是对选择一个给定label的过程。如下图：此图片为248×400像素的图片，对电脑来说他是一个248 x 400 x 3的3维数组，其中的3代表红绿蓝三色通道（这里文中默认是使用RGB格式），假设我们设定，这幅图片的label有四种可能，cat、dog、hat、mug，对

2016-05-23 23:07:31 4400 2

原创 UFLDL 11 卷积与池化 convolution pooling

卷积特征 convolution之前我们都是用很小的图片来做示范，比如8x8，但是很多图片是很大的，比如是100x100，假设我们需要在隐含层提取100个特征，那么一共需要的参数有100x100x100=10w个参数，参数太多显然是不合适的，至少计算速度就会被降低。于是乎，我们受到动物视觉中某些神经只受局部区域的刺激的启发，每次只将图像局部的一小块接入网络，计算我们需要的特征，训练特征（计算分类

2016-05-11 20:29:53 1619

原创 UFLDL 10 建立分类用深度学习网络（含梯度弥散的原因）

重点分析了普通bp网络梯度弥散等不稳定现象，建立了分类用自编码深度网络。

2016-05-11 15:53:08 3786

原创 UFLDL 09 自我学习 Self-Taught Learning Unsupervised Feature Learning

本文主要是说自我学习和无监督的特征学习，并不是我们之前说的无监督学习的聚类等内容。1总体思路这里的自我学习是特征的学习，是通过自编码和稀疏矩阵得到特征。基本思路如下： 1. 大量的无标签数据导入自编码器（autoencoder），得到其更加本质的特征； 2. 有标签数据导入同一个编码器，用得到的特征和标签进行训练，（使用普通的训练方法比如svm等）得到模型； 3. 利用模型进行预测。 (⊙o

2016-05-05 09:00:40 867 2

原创 PRML 02 Introduction：贝叶斯概率

主要讲解了贝叶斯概率与统计派概率的不同。概率论，决策论，信息论（probability theory, decision theory, and information theory）是以后用到的三个重要工具，本节主要介绍概率论，这里的介绍还是结合前面的多项式拟合的例子讲解。

2016-05-04 22:13:44 4504

原创 UFLDL 08 Softmax Regression

所谓softmax regression 是在logistic regression基础上的升级版。 logistics是二分类，而softmax可以多分类。1 logistic regression学习softmax regression之前我们先回归一下 logistic regression的相关知识。（参见http://blog.csdn.net/bea_tree/article/d

2016-05-04 09:36:50 1287

原创 PRML 01 绪论：引言与引例

作者Christopher M. Bishop引言：模式识别已经有较长的研究历史，甚至在天文和原子光谱（atomic spectra）也有着重要的应用。下面使用手写识别这个例子对相关概念做通俗的介绍（in a relatively informed way) 我们的目的是构建一个模型（Machine）从这些图片的信息中得到我们想要的结果。图片的信息是我们输入的，这里是28*28像素组成

2016-05-03 17:40:13 3245

原创 UFLDL 07 白化 whitening/sphering

什么是白化白化是将不同特征去掉相关性，并且将新特征的数据的的方差化为相同。至于为什么需要白化，文中只说了有些算法需要它作为预处理，quora上的一个问题也许会有帮助。 https://www.quora.com/Computer-Vision-In-sphering-whitening-what-advantage-does-making-the-features-have-the-sam

2016-05-02 23:54:01 1845

原创时间序列 R 07 时间序列分解 Time series decomposition

一个时间序列可以分解为多个模型的组合1.1 时间序列的组成1.1.1 时间序列组成模式三种时间序列模式（不计剩余残差部分） 1. 趋势Tend ：比如线性趋势，先增加后降低的整体趋势 2. 季节性Seasonal ：以时间为固定周期，呈现循环的特性 3. 周期性Cyclic：在以不固定周期不断震荡，通常周期性至少持续2年下图就是讲时间序列分解之后的结果，应该比较容易理

2016-05-02 15:33:37 26509 1

原创时间序列 R 08 指数平滑 Exponential smoothing

1.1 简单指数平滑“simple exponential smoothing” (SES) SES适用于不计趋势与季节性的时间序列我们在可以使用平均值模型和naive模型来做粗略的预测（点击查看），他们懂预测方法分别是 - 使用最后一个值（naive模型） - 使用前面值的平均数（平均值）这里的简单指数平滑是用的前面几个值的加权平均数，越靠近最后的权重越大，后面的权重指数下降

2016-05-02 15:33:10 19479

原创时间序列 R 09 ARIMA

1.1 稳定性与差分1.1.1 稳定性 stationarity稳定性是指时间序列的属性不在随时间变化。因此有趋势和季节性的时间序列不是稳定的序列。但是有一些具有周期性cyclic的时间序列因为其周期时间不一定，所以也是稳定性序列。1.1.2 差分 Differencing下图a，b分别是道琼斯指数与道琼斯指数每天的变化量下图是两幅图的ACF 第二幅中仅有一个

2016-05-02 15:32:47 8915 1

原创时间序列 R 10 其他进阶预测方法 Advanced forecasting methods

1 Dynamic regression models 动态回归模型前面的内容中要么只考虑了时间，要么只考虑了其他自变量的影响，这一节将考虑各个变量和时间的综合影响。1.1 regression models+ ARIMA models首先我们简单的将回归和Arima组合，做一个简单的动态回归模型。其组合的方法和实质就是将回归模型中的误差项变为时间序列的ARIMA，也可以理解为下式

2016-05-02 15:32:06 6586

bea_tree的博客