自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

s_sunnyy的博客

学习DL&HPC,部分有转载的其他博主的文章,只为记录学习,如有侵权,请联系我。

  • 博客(159)
  • 资源 (7)
  • 收藏
  • 关注

原创 电脑耳机只能听到伴奏

手机上可以听到声音,插到电脑上只能听到伴奏,原唱声音很小参考原文:https://www.jb51.net/diannaojichu/500542.html解决:1、 控制面板->声音2、双击扬声器3、 扬声器属性->级别->Realtek HD Audio ouput 平衡4. 将左前拉低,就可以听到原声了...

2019-11-28 12:24:24 2692

转载 [转载]tensorflow二次开发

本文转载自https://leslie-fang.github.io/2019/02/27/tensorflow%E4%BA%8C%E6%AC%A1%E5%BC%80%E5%8F%91/1. 编译方法1./configurebazel build --config=opt //tensorflow/tools/pip_package:build_pip_packagebuild出...

2019-09-11 11:39:32 22124 1

原创 离线源码安装tensorflow

离线源码安装tensorflow离线源码编译简直是个坑,记录下我踩坑的过程。。参考:http://www.icode9.com/content-1-97054.htmlhttps://blog.csdn.net/conling_/article/details/72902571https://github.com/tensorflow/tensorflow/issues/15889环境...

2019-01-08 14:22:45 9762 4

原创 几篇论文

训练ImageNet记录AlexNet  Batch Size Processor GPU Interconnect Time Top-1 Accuracy You et al. 512 DGX-1 station  NVLink 6 hours 10 mins 58.80% You et al. 32K CP...

2018-12-25 10:23:10 376

转载 分布式深度学习(I):分布式训练神经网络模型的概述

了解一下如何使用GPU分布式计算来显著提高深度学习模型的训练速度,介绍数据并行化和模型并行化的方法,重点介绍数据并行化的参数平均、异步随机梯度下降和去中心化异步随机梯度下降方法,以及讨论其中面临的一些挑战和当前的研究方向。我们还会讨论在何种场景下适合(或不适合)采用分布式算法来训练神经网络模型。

2018-04-11 14:53:27 5319

转载 batch normalization中的moving average

训练时使用一个minibatch的训练数据计算均值和方差然后标准化数据,在test的时候我们也希望作相同的处理,比较直接的方法是在训练集上重新计算一遍统计量,但是,如果有1000w数据,这种计算就比较花费时间,而test的速度越快越好,所以在训练的时候,顺便就把均值和方差计算出来了,当然不是精确值,是近似值,这就是moving average。running_mean = momentum * r...

2018-04-11 14:43:12 4009

转载 CNN几种经典模型比较

LeNet5LeNet5 诞生于 1994 年,是最早的卷积神经网络之一,并且推动了深度学习领域的发展。自从 1988 年开始,在许多次成功的迭代后,这项由 Yann LeCun 完成的开拓性成果被命名为 LeNet5(参见:Gradient-Based Learning Applied to Document Recognition)。LeNet5 的架构基于这样的观点:(尤其是)图像的特征分布...

2018-04-10 11:14:19 6827

转载 深度学习网络精确率、大小的比较

论文An Analysis of Deep Neural Network Models for Practical Applications 比较了2016年前的一些神经网络的大小,精度等参数。如下图所示:2016年以来有出现了一些新的神经网络结构,特地查阅了一些论文,总结了一下(发现有很多数据没法不全面或者不同版本的数据稍有差异,其中必定有很多纰漏之处,望多多指正,我会修改并补充的),如下: 其...

2018-04-10 11:06:27 6608

原创 几篇论文记录(其他博主的读书笔记)

卷积神经网络的并行化模型——One weird trick for parallelizing convolutional neural networks总结:One weird trick for parallelizing convolutional neural networks『 论文阅读』Understanding deep learning requires rethinking ge...

2018-04-10 10:58:13 563

原创 论文阅读 - 大batch_size训练时保证精度的LARS方法

阅读了Yang You等的系列论文(现在才发现其实以下四篇实际是两篇。。)1. Scaling SGD Batch Size to 32K for ImageNet Training. https://arxiv.org/abs/1708.03888v1 2. Large Batch Training of Convolutional Networks. https://arxiv.org/abs...

2018-04-09 17:47:01 2188

原创 origin画图修改横坐标

当在origin中画图,如果横坐标不为连续的整数,比如以下这种:GPUS images/s 1 277.91 2 542.7116667 4 1059.7775 8 2118.373767 16 4141.461033 就会生成以下这种图。。。。怎么把横坐标调整呢只要把横坐标的一列全选,单击右键,在Properties 中format 改为 text 就 OK 了然后再重新生成图就是可...

2018-03-25 16:17:01 53383 4

原创 TensorFlow benchmarks脚本中命令参数必须加“=”

这个问题已在GitHub上提出 https://github.com/tensorflow/benchmarks/issues/132=====================================================在TensorFlow benchmarks测试时一直使用的是“--flag value”的形式,在我的印象中这样也是可以的,将value的值赋给fla

2018-02-07 09:56:48 1575

原创 Ubuntu16.04安装Chrome浏览器及解决root不能打开的问题

1. 安装桌面(emmm,不知道是否只执行第二个命令就行)# apt-get install gonme# apt-get install ubuntu-desktop2. 安装Chrome浏览器# wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt/sources.list.d/# w

2018-02-07 09:38:16 31522 8

原创 Linux ssh无密码登录

总体来说两个步骤:生成本地密钥~/.ssh/id_rsa.pub,将密钥复制到远程机器的~/.ssh/authorized_keys文件中在两个节点上分别进行如下步骤,以node00为例1. 生成密钥,会生成~/.ssh/id_rsa.pub文件命令: root@node00:~# ssh-keygen -t rsa2. 通过scp将

2018-01-26 10:45:26 277

原创 使用 virtualenv 源码安装 TensorFlow 1.4.1

由于TensorFlow1.5.0测试中多机nccl/xring时一直出错,故尝试之前版本,为了不破坏当前的环境,使用virtualenv来安装TensorFlow1.4.1,以下是安装过程1. 安装所有必备工具:apt-get install python-pip python-dev python-virtualenv2. 建立一个全新的 virtualenv 环境. 将环境建

2018-01-24 11:45:22 1306

原创 分布式TensorFlow批量运行worker/ps

最近在测试分布式TensorFlow,有一个问题一直很困扰我,就是worker和ps要分别在各节点上手动启动,然后参考GitHub上相关的问题及回答,好像对于distributed_replicated mode来说,每个节点上分别启动一个ps和一个worker会比较好,但是这样的话,如果是在32台机器上运行,就要执行64条命令,意味着要开64个xshell界面!(我的理解是这样不知道,若有不对,

2018-01-22 16:03:47 5362 2

转载 linux怎么远程执行另一台linux机器上的shell文件?

https://zhidao.baidu.com/question/424323362.html==============================================================例如:在Blinux /opt/m.sh m.sh中命令是date 我现在想在A机器上的命令行执行m.sh这个脚本,怎么操作? 命令用引号括起来就可以了,如:ssh B_ip "s

2018-01-18 11:08:05 13044 1

原创 PCIe传输速率和可用带宽(吞吐量)计算

参考:https://baike.baidu.com/item/pcie/2167538?fr=aladdin          http://blog.csdn.net/zenglichuanjia/article/details/47297845  http://www.baike.com/wiki/GT/s=================================

2018-01-10 19:26:23 147402 7

翻译 NCCL 故障排除 二

5.4. NCCL KnobsA knob isa type of environment variable that can you can turn on or off by settingspecific values. These environment variables should be set in the context ofrunning NCCL. The followi

2018-01-10 16:20:08 8213

翻译 NCCL 故障排除 一

官方文档 http://docs.nvidia.com/deeplearning/sdk/nccl-developer-guide/index.html#troubleshooting========================================================================5. Troubleshooting  NCCL 故障排

2018-01-10 14:40:31 14392

转载 Linux下查看PCI-E插槽信息的方法【转载】

原文: http://blog.chinaunix.net/uid-1829236-id-3188434.html======================================================================在 Linux 下要如何得知 PCI-E Bus 使用的是 Gen(Generation) 1 還是 Gen2 還是新一代的

2018-01-10 12:28:36 18147 1

原创 Ubuntu16.04源码安装TensorFlow

在进行TensorFlow测试,想得到最优的性能,学习TensorFlow相关文档,源码编译会得到更好的性能Building and installing from sourceThe default TensorFlow binaries target the broadest range of hardware to make TensorFlow accessible t

2018-01-05 10:13:09 4099

转载 Linux开机自动挂载存储的两种方式

原文: http://blog.csdn.net/huangjin0507/article/details/46004241有两种办法:1:把mount 的命令放到/etc/rc.d/rc.local 里面去,vi /etc/rc.d/rc.local ,然后把 mount -t nfs dl1:/home/users /home/users 这个命令写进去。保存退出就好了

2017-12-27 14:47:42 18007 1

原创 tensorflow imagenet数据集转化

脚本为 https://github.com/tensorflow/models/tree/master/research/slim/datasets/download_and_convert_imagenet.shset -eif [ -z "$1" ]; then echo "usage download_and_convert_imagenet.sh [data dir]"

2017-12-27 10:29:44 9191 3

转载 tensorflow获取可用GPU设备

参考:http://blog.csdn.net/weixin_35653315/article/details/71403386主要内容:使用tensorflow查询机器上是否存在可用的gpu设备使用tensorflow获取可用的gpu设备编号tensorflow对GPU设备的编码使用tensorflow查询机器上是否存在可用的gpu设备def is_gpu_ava

2017-12-23 16:03:40 4377

原创 vim编辑文件时当光标出现在注释行后按回车键怎么可以做到不现新注释行?

http://blog.csdn.net/warnerwu/article/details/74856947在使用vim编辑文件的时候, 你的光标出现在注释行中时, 如果这时按回车键就会出现一个新的注释行, 但是有没有必要出现新的注释行去除光标出现在注释行后按回车出现新注释行使用esc退出插入模式来命令模式,输入以下命令::set fo-=r

2017-12-08 10:54:30 585

原创 vtune中几个参数

L2 Hit Rate : The L2 is the last and longest-latency level in the memory hierarchy before DRAM or MCDRAM. While L2 hits are serviced much more quickly than hits in DRAM or MCDRAM, they can still incur

2017-12-08 09:34:54 1119

转载 Intel VTune分析结果中的名词释译

转自 http://blog.csdn.net/fireroll/article/details/8605974Elapsed Time(执行耗时):the total time your target ran, is calculated as follows:Wall clock time at end of application – Wall clo

2017-11-27 11:57:32 999

转载 Linux查看物理CPU个数、核数、逻辑CPU个数

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo| grep "cpu cores...

2017-11-17 15:55:31 543

原创 nvidia-smi命令

nvidia 的系统管理界面 (nvidia-smi),可以收集各种级别的信息,查看显存使用情况。此外, 可以启用和禁用 GPU 配置选项 (如 ECC 内存功能)。1. nvidia-smi 命令解释相关参数含义:GPU:本机中的GPU编号Name:GPU 类型Persistence-M:Fan:风扇转速Temp:温度,单位摄氏度Perf:表征

2017-11-16 16:30:58 20908 2

原创 Git 简单使用学习

这个博客只为学习git的记录,参考学习的文章: 1. 廖雪峰的Git教程 2. Git 常用命令详解Git 命令详解1. git pull:从其他的版本库(既可以是远程的也可以是本地的)将代码更新到本地,例如:git pull origin master就是将origin这个版本库的代码更新到本地的master主枝 2. git add:是将当前更改或者新增的文件

2017-11-02 16:57:41 413

转载 深度学习超参数简单理解------>learning rate,weight decay和momentum

说到这些参数就会想到Stochastic Gradient Descent (SGD)!其实这些参数在caffe.proto中 对caffe网络中出现的各项参数做了详细的解释。Learning Rate学习率决定了权值更新的速度,设置得太大会使结果超过最优值,太小会使下降速度过慢。仅靠人为干预调整参数需要不断修改学习率,因此后面3种参数都是基于自适应的思路提出的解决方案。后

2017-10-16 13:05:37 1249

原创 NVCaffe 0.16.2 多 GPU 训练过程代码分析

NVIDA在Caffe的基础上对其进行了优化,这篇文章主要是针对其多 GPU 训练过程中参数更新方式及通讯方法进行相关代码的学习,如有不正确之处请指正。 先放主要的参考文章 1. NVCaffe github 主页 2. 博主 @KFXW 之前写了NVcaffe源码阅读系列文章,给了我很大启发,非常感谢!! 3. 另一位博主 @沤江一流 对 (Caffe,LeNet)的训练过程作了

2017-10-16 11:22:09 4114

原创 caffe0.16 resnet batch_size=64时出现超出gpu_memory问题

最近在测试caffe0.16,ResNet-50 batch_size=64 8卡时可以跑得起来,但是1/2/4卡时均跑不起来,显示:F0824 10:07:26.011203 35974 gpu_memory.hpp:38] Failed to allocate 40140800bytes on device 0. Total memory: 24025956352, Free: 334

2017-08-26 06:29:54 1885 2

原创 编译NVCaffe0.16出错-不支持gcc4.8.3-已安装4.8.5

环境:NVCaffe: 0.16.2 (https://github.com/NVIDIA/caffe/releases)CUDA: 8.0.61cuDNN: 6.0.21GPU: P40Driver Version: 375.66gcc version 4.8.3 20140911 (Red Hat 4.8.3-9)错误信息:[hx@dl1 caffe

2017-07-21 14:57:46 1120

原创 simple_graph_execution_state

graph_partition.h#ifndef TENSORFLOW_GRAPH_GRAPH_PARTITION_H_#define TENSORFLOW_GRAPH_GRAPH_PARTITION_H_#include #include #include #include #include "tensorflow/core/framework/graph.pb.

2017-07-13 16:10:57 1263

原创 win10开启自带移动热点以及解决无法设置移动热点,请打开WLAN问题

1. 选择Windows设置里的 “网络和Internet”2. 选择移动热点,点击开。如果这一步显示“无法设置移动热点,请打开WLAN”解决方法:右键单击计算机-管理-设备管理器,然后点击菜单栏的查看-显示隐藏的设备,然后在网络适配器下方找到托管网络虚拟适配器,我的就是标出来的那个,将该适配器启动。3. 选择更改适配器选项,然后看到网络

2017-07-01 21:50:43 196564 20

原创 MPI问题:HYDU_sock_connect (../../utils/sock/sock.c:224): unable to get host address for node1 (2)

在两个节点运行 MPI 程序时,出现以下错误:[proxy:0:1@node2] HYDU_sock_connect (../../utils/sock/sock.c:224): unable to get host address for node1 (2)[proxy:0:1@node2] main (../../pm/pmiserv/pmip.c:453): unable to co

2017-06-29 12:08:28 7253 1

原创 卸载并重装openssh(解决ssh -1问题)

在集群测试过程中,有一个节点的openssh装的有问题,需要ssh -1 才能登录,导致多节点的mpi无法使用。修改配置文件什么的也没有用(也许是我改的不对。。)最后决定直接重装openssh1. 卸载先查看openssh的相关包[root@node51 ~]# rpm -qa openssh*openssh-server-6.6.1p1-11.el7

2017-06-29 12:02:50 41397

转载 vim中粘贴数据的时候如何取消自动缩进

vim中在粘贴剪贴板中的数据时会自动增加缩进,这对python这种对缩进要求严格的语言来说简直是恶梦。如何让它不缩进,保持原格式呢?答案就是paste模式。在粘贴数据之前,输入下面指定开启paste模式:set paste粘贴完毕后,输入下面指定关闭paste模式:set nopaste每次都需要输入是不是太麻烦,那么在.vimrc中加入下面内容吧:

2017-06-28 17:49:49 4345

风辰的CUDA培训教程

本无意于发布这个文档,但是最近还有很多人说能够从我四年前发布的《风辰的CUDA入门教程》 中学习。对我当时一不小心发布的内容造成误人子弟非常内疚。另外,那个资料已经非常过时了,而且很多内容是不成熟的观点。拜托大家不要再看了。——by 风辰

2017-03-13

CUDA C 编程指南英文版

CUDA C 编程指南英文版,已加标签。

2017-03-13

CUDA编程指南5.0中文版_风辰.

CUDA编程指南中文翻译,由风辰翻译

2017-03-13

KNL MCDRAM Guide

Intel 第二代Xeon Phi产品“Knights Landing”(KNL)内存模式MCDRAM介绍及编程指导

2016-11-14

Programmers Guide to KNL

Intel 第二代Xeon Phi产品“Knights Landing”(KNL)编程指导

2016-11-14

Knights Landing(KNL)简介

Intel第二代Xeon Phi产品代号“Knights Landing”(KNL)的架构和技术细节,既可以继续做协处理器,也可以单独做中央主处理器,不再必须有Xeon的支撑,因而更加灵活。采用了14nm新工艺,架构是Silvermont的改进定制版,核心数量多达72个,并支持四线程,即总计最多288个线程。

2016-11-14

基于51单片机的简易频率计数器程序

实现简单频率数显表:设计一个能实现对脉冲频率测量显示的电路。 1.输入频率范围(0-10k),显示为xxx.xx.2.用两个指示灯指示显示数字的单位,Hz和KHz两档,根据输入频率自动切换显示档。3.脉冲信号是由外部信号发生器提供

2014-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除