ML/DL
__Sunny__
学习记录生活
展开
-
普通程序员如何转向人工智能方向?
普通程序员如何转向人工智能方向?原文出处: 计算机的潜意识 眼下,人工智能已经成为越来越火的一个方向。「普通程序员,如何转向人工智能方向」是知乎上的一个问题。本文是我对此问题的一个回答的归档版。相比原回答有所内容增加。一. 目的本文的目的是给出一个简单的,平滑的,易于实现的学习方法,帮助 “普通” 程序员踏入AI领域这个门。这里,我对普通程序转载 2017-01-22 17:15:39 · 765 阅读 · 0 评论 -
几篇论文记录(其他博主的读书笔记)
卷积神经网络的并行化模型——One weird trick for parallelizing convolutional neural networks总结:One weird trick for parallelizing convolutional neural networks『 论文阅读』Understanding deep learning requires rethinking ge...原创 2018-04-10 10:58:13 · 594 阅读 · 0 评论 -
深度学习网络精确率、大小的比较
论文An Analysis of Deep Neural Network Models for Practical Applications 比较了2016年前的一些神经网络的大小,精度等参数。如下图所示:2016年以来有出现了一些新的神经网络结构,特地查阅了一些论文,总结了一下(发现有很多数据没法不全面或者不同版本的数据稍有差异,其中必定有很多纰漏之处,望多多指正,我会修改并补充的),如下: 其...转载 2018-04-10 11:06:27 · 6638 阅读 · 0 评论 -
CNN几种经典模型比较
LeNet5LeNet5 诞生于 1994 年,是最早的卷积神经网络之一,并且推动了深度学习领域的发展。自从 1988 年开始,在许多次成功的迭代后,这项由 Yann LeCun 完成的开拓性成果被命名为 LeNet5(参见:Gradient-Based Learning Applied to Document Recognition)。LeNet5 的架构基于这样的观点:(尤其是)图像的特征分布...转载 2018-04-10 11:14:19 · 6916 阅读 · 0 评论 -
batch normalization中的moving average
训练时使用一个minibatch的训练数据计算均值和方差然后标准化数据,在test的时候我们也希望作相同的处理,比较直接的方法是在训练集上重新计算一遍统计量,但是,如果有1000w数据,这种计算就比较花费时间,而test的速度越快越好,所以在训练的时候,顺便就把均值和方差计算出来了,当然不是精确值,是近似值,这就是moving average。running_mean = momentum * r...转载 2018-04-11 14:43:12 · 4139 阅读 · 0 评论 -
分布式深度学习(I):分布式训练神经网络模型的概述
了解一下如何使用GPU分布式计算来显著提高深度学习模型的训练速度,介绍数据并行化和模型并行化的方法,重点介绍数据并行化的参数平均、异步随机梯度下降和去中心化异步随机梯度下降方法,以及讨论其中面临的一些挑战和当前的研究方向。我们还会讨论在何种场景下适合(或不适合)采用分布式算法来训练神经网络模型。转载 2018-04-11 14:53:27 · 5631 阅读 · 0 评论 -
几篇论文
训练ImageNet记录AlexNet Batch Size Processor GPU Interconnect Time Top-1 Accuracy You et al. 512 DGX-1 station NVLink 6 hours 10 mins 58.80% You et al. 32K CP...原创 2018-12-25 10:23:10 · 428 阅读 · 0 评论 -
离线源码安装tensorflow
离线源码安装tensorflow离线源码编译简直是个坑,记录下我踩坑的过程。。参考:http://www.icode9.com/content-1-97054.htmlhttps://blog.csdn.net/conling_/article/details/72902571https://github.com/tensorflow/tensorflow/issues/15889环境...原创 2019-01-08 14:22:45 · 12437 阅读 · 4 评论 -
论文阅读 - 大batch_size训练时保证精度的LARS方法
阅读了Yang You等的系列论文(现在才发现其实以下四篇实际是两篇。。)1. Scaling SGD Batch Size to 32K for ImageNet Training. https://arxiv.org/abs/1708.03888v1 2. Large Batch Training of Convolutional Networks. https://arxiv.org/abs...原创 2018-04-09 17:47:01 · 2220 阅读 · 0 评论 -
NCCL 故障排除 二
5.4. NCCL KnobsA knob isa type of environment variable that can you can turn on or off by settingspecific values. These environment variables should be set in the context ofrunning NCCL. The followi翻译 2018-01-10 16:20:08 · 8450 阅读 · 0 评论 -
【深度学习系列4】深度学习及并行化实现概述
转自 http://djt.qq.com/article/view/1245摘要: 深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言理解等。深层模型是包含多个隐藏层的人工神经网络,多层非线性结构使其具备强大的特征表达能力和对复杂任务建模能力。训练深层模型是长期以来的难题,近年来以层次化、逐层初始化为代表的一系列方法的提出给训练深层模型带来了希转载 2017-03-10 10:11:46 · 1758 阅读 · 0 评论 -
如何理解TensorFlow中的batch和minibatch
转自 http://hp.stuhome.net/index.php/2016/09/20/tensorflow_batch_minibatch/原文如下:在刚开始学习使用TF的过程中,我不是很理解什么是“batch”。也经常有人问,到底minibatch是干什么的?然而这是一个在TF中,或者说很多DL的框架中很常见的词。这个解释我觉得比较贴切也比较容易理解。引转载 2017-03-27 15:26:06 · 7306 阅读 · 0 评论 -
神经网络的理解(MLP RBF RBM DBN DBM CNN 整理学习)
原文 http://lanbing510.info/2014/11/07/Neural-Network.html开篇语文章整理自向世明老师的PPT,围绕神经网络发展历史,前馈网络(单层感知器,多层感知器,径向基函数网络RBF),反馈网络(Hopfield网络,联想存储网络,SOM,Boltzman及受限的玻尔兹曼机RBM,DBN,CNN)三部分进行讲述,给人一个转载 2017-03-28 16:59:55 · 18351 阅读 · 0 评论 -
开源软件库TensorFlow最全教程和项目列表
TensorFlow 是一个开源软件库,用于使用数据流图进行数值计算。换句话说,即是构建深度学习模型的最佳方式。本文整理了一些优秀的有关 TensorFlow 的教程和项目列表。一、教程 TensorFlow Tutorial 1 — 从基础到更有趣的 TensorFlow 应用 TensorFlow Tutorial 2 — 基于 Google TensorFlo转载 2017-03-28 17:02:09 · 3643 阅读 · 0 评论 -
谈谈深度学习中的 Batch_Size
转自 http://blog.csdn.net/ycheng_sjtu/article/details/49804041 谈谈深度学习中的 Batch_SizeBatch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据转载 2017-03-23 16:31:09 · 6752 阅读 · 0 评论 -
logistic回归和softmax回归几个文章
1. 机器学习--logistic回归和softmax回归2. UFLDLSoftmax回归3. softmax回归转载 2017-03-14 16:12:34 · 516 阅读 · 1 评论 -
深度学习超参数简单理解------>learning rate,weight decay和momentum
说到这些参数就会想到Stochastic Gradient Descent (SGD)!其实这些参数在caffe.proto中 对caffe网络中出现的各项参数做了详细的解释。Learning Rate学习率决定了权值更新的速度,设置得太大会使结果超过最优值,太小会使下降速度过慢。仅靠人为干预调整参数需要不断修改学习率,因此后面3种参数都是基于自适应的思路提出的解决方案。后转载 2017-10-16 13:05:37 · 1270 阅读 · 0 评论 -
NCCL 故障排除 一
官方文档 http://docs.nvidia.com/deeplearning/sdk/nccl-developer-guide/index.html#troubleshooting========================================================================5. Troubleshooting NCCL 故障排翻译 2018-01-10 14:40:31 · 14634 阅读 · 0 评论