深度学习主机环境配置: Ubuntu16.04+GeForce GTX 1080+TensorFlow

最新推荐文章于 2023-06-07 16:43:56 发布

isuker

最新推荐文章于 2023-06-07 16:43:56 发布

阅读量5.9k

点赞数 1

http://f.dataguru.cn/thread-660774-1-1.html

发表于 2016-7-20 09:04 | 只看该作者 | 倒序浏览 | 阅读模式

深度学习主机环境配置: Ubuntu16.04+GeForce GTX 1080+TensorFlow发表于 2016年07月18号由 52nlp

接上文《深度学习主机环境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0》，我们继续来安装 TensorFlow，使其支持GeForce GTX 1080显卡。
1 下载和安装cuDNN
cuDNN全称 CUDA Deep Neural Network library，是NVIDIA专门针对深度神经网络设计的一套GPU计算加速库，被广泛用于各种深度学习框架，例如Caffe, TensorFlow, Theano, Torch, CNTK等。

The NVIDIA CUDA® Deep Neural Network library (cuDNN) is a GPU-accelerated library of primitives for deep neural networks. cuDNN provides highly tuned implementations for standard routines such as forward and backward convolution, pooling, normalization, and activation layers. cuDNN is part of the NVIDIA Deep Learning SDK.
Deep learning researchers and framework developers worldwide rely on cuDNN for high-performance GPU acceleration. It allows them to focus on training neural networks and developing software applications rather than spending time on low-level GPU performance tuning. cuDNN accelerates widely used deep learning frameworks, including Caffe, TensorFlow, Theano, Torch, and CNTK. See supported frameworks for more details.

首先需要下载cuDNN，直接从Nvidia官方下载链接选择一个版本，不过下载cuDNN前同样需要登录甚至填写一个简单的调查问卷: https://developer.nvidia.com/rdp/cudnn-download，这里选择的是支持CUDA8.0的cuDNN v5版本，而支持CUDA8的5.1版本虽然显示在下载选择项里，但是提示：cuDNN 5.1 RC for CUDA 8RC will be available soon – please check back again.

安装cuDNN比较简单，解压后把相应的文件拷贝到对应的CUDA目录下即可：
tar -zxvf cudnn-8.0-linux-x64-v5.0-ga.tgz

cuda/include/cudnn.h
cuda/lib64/libcudnn.so
cuda/lib64/libcudnn.so.5
cuda/lib64/libcudnn.so.5.0.5
cuda/lib64/libcudnn_static.a

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

继续阅读 →

发表在深度学习    |    标签为 Bazel, Caffe, CNTK, CUDA, CUDA8, CUDA8.0, cuDNN, GeForce, GeForce GTX 1080,Google, GPU, GTX1080, GTX1080主机, GTX1080显卡, Nvidia, Nvidia GTX 1080, python, TensorFlow, TensorFlow GPU, TensorFlow源代码安装, Theano, Torch, ubuntu, Ubuntu16.04, 深度学习, 深度学习PC, 深度学习主机, 深度学习工作站, 深度学习服务器, 深度学习机器, 深度学习环境, 深度学习环境配置, 深度学习电脑    |    2 条评论

深度学习主机环境配置: Ubuntu16.04+Nvidia GTX 1080+CUDA8.0发表于 2016年07月15号由 52nlp
   接上文《深度学习主机攒机小记》，这台GTX1080主机准备好之后，就是配置深度学习环境了，这里选择了比较熟悉Ubuntu系统，不过是最新的16.04版本，另外在Nvidia GTX1080的基础上安装相关GPU驱动，外加CUDA8.0，因为都比较新，所以踩了很多坑。
1. 安装Ubuntu16.04
不考虑双系统，直接安装 Ubuntu16.04，从ubuntu官方下载64位版本: ubuntu-16.04-desktop-amd64.iso 。
在MAC下制作了 Ubuntu USB 安装盘，具体方法可参考: 在MAC下使用ISO制作Linux的安装USB盘，之后通过Bios引导U盘启动安装Ubuntu系统：
1）一开始安装就踩了一个坑，选择”Install Ubuntu”回车后过一会儿屏幕显示“输入不支持”，google了好多方案，最终和ubuntu对显卡的支持有关，需要手动添加显卡选项: nomodeset，使其支持Nvidia系列显卡，参考：安装ubuntu黑屏问题的解决 or How do I set ‘nomodeset’ after I’ve already installed Ubuntu?
2) 磁盘分区，全部干掉之前主机自带的Window 10系统，分区为 /boot, /, /home 等几个目录，同时把第二块4T硬盘也挂载了上去，作为数据盘。
3）安装完毕后Ubuntu 16.04的分辨率很低，在显卡驱动未安装之前，可以手动修改一下grub文件：
sudo vim /etc/default/grub
# The resolution used on graphical terminal
# note that you can use only modes which your graphic card supports via VBE
# you can see them in real GRUB with the command `vbeinfo’
#GRUB_GFXMODE=640×480
# 这里分辨率自行设置
GRUB_GFXMODE=1024×768

sudo update-grub
4）安装SSH Server，这样可以远程ssh访问这台GTX1080主机：
sudo apt-get install openssh-server
5）更新Ubuntu16.04源，用的是中科大的源：
cd /etc/apt/
sudo cp sources.list sources.list.bak
sudo vi sources.list
把下面的这些源添加到source.list文件头部：
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse
deb http://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-proposed main restricted universe multiverse
deb-src http://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse
最后更新源和更新已安装的包：
sudo apt-get update
sudo apt-get upgrade
继续阅读 →

   发表在深度学习    |    标签为 CUDA, CUDA8, CUDA8.0, GPU, GTX1080, GTX1080主机, GTX1080显卡,GTX1080显卡驱动, GTX1080驱动, Nvidia GTX 1080, ubuntu, Ubuntu16.04, 深度学习, 深度学习PC, 深度学习主机, 深度学习工作站, 深度学习服务器, 深度学习机器, 深度学习环境, 深度学习环境配置, 深度学习电脑    |    留下评论


Mecab安装过程中的一些坑发表于 2016年07月8号由 52nlp
   先说一点题外话，最近发现 Linode 因为庆祝13周年活动将所有的Plan加了一倍，又来了一次加量不加价，这一下子和别的产品拉开了差距，可惜目前Linode日本节点并不参加活动，否则52nlp目前所用的这台Linode 主机性能就可以翻倍了。不过还是搞了一台 Linode 8GB（8G内存，4核，96G SSD硬盘容量）的VPS套餐（40$/mo)，选择了美国西部的 Fremont 节点，据说国内连接速度很不错。在上面选择了64位的Ubuntu14.04 版本，但是在这个环境下安装Mecab的过程中接连踩了几个坑，所以记录一下。
这里曾写过“Mecab中文分词”系列文章，也在github上发布过一个中文分词项目 MeCab-Chinese：Chinese morphological analysis with Word Segment and POS Tagging data for MeCab ，但是这个过程中没有怎么写到Mecab安装的问题，因为之前觉得rickjin的这篇《日文分词器 Mecab 文档》应该足够参考，自己当时也在Mac OS和Ubuntu环境下安装成功并测试，印象貌似不是太复杂。这次在Ubuntu 14.04的环境安装的时候，遇到了几个小坑，记录一下，做个备忘，仅供参考。
继续阅读 →

   发表在中文分词, 自然语言处理    |    标签为 CRF中文分词, CRF模型, Java中文分词, Linode, Linode降价,Mecab, MeCab-Chinese, MeCab中文分词, MeCab增量更新, Mecab安装, MeCab模型更新, MeCab词典更新,MeCab词性标注, NLPJob, Perl中文分词, Python中文分词, Ruby中文分词, 中文信息处理, 中文分词, 中文分词Demo,中文分词Java, 中文分词Perl, 中文分词Python, 中文分词Ruby, 中文分词模型, 中文分词演示, 中文分词演示系统, 中文分词词典, 中文词性标注, 文本处理演示系统    |    留下评论


深度学习主机攒机小记发表于 2016年07月5号由 52nlp
   五月中下旬的时候，GTX1080的公布和发售直接刺激了我攒一台深度学习主机的欲望，攒机对于我来说已经相隔十多年，大学时候的第一台PC就是攒出来的，其实也就是在5000元的预算内，去电脑城里找商家组装了一台台式机，美其名曰DIY。
虽然已经锁定显卡，但是对于其他的搭配还是很模糊，只是需要“好CPU”，“大内存”, “大硬盘”, 于是开始google “深度学习电脑”，“深度学习服务器”，“深度学习PC”， “深度学习主机”，“深度学习机器”，“深度学习工作站”这些关键词，并很快锁定了这篇文章《如何搭建一台深度学习服务器》作为主要参考：

硬件选择：基本思路是单显卡机器，保留升级空间
……
CPU选择：
在深度学习任务中，CPU并不负责主要任务，单显卡计算时只有一个核心达到100%负荷，所以CPU的核心数量和显卡数量一致即可，太多没有必要，但是处理PCIE的带宽要到40。
主板选择：
需要支持X99架构，支持PCIe3.0，还要支持4通道DDR4内存架构。如果要搞四显卡并行，PCIE带宽支持要达到40，并且支持4-Way NVIDA SLI技术。
内存：
达到显存的二倍即可，当然有钱的话越大越好。
电源问题：一个显卡的功率接近300W，四显卡建议电源在1500W以上，为了以后扩展，选择了1600W的电源。
机箱散热：
因为各种部件相当庞大，需要有良好散热功能的大机箱，选择了Tt Thermaltake Core V51机箱，标配3个12cm风扇。未来如果需要还可以加装水冷设备。
……
最后的硬件配置：
CPU: Intel X99平台 i7 5960K
内存: DDR4 2800 32G(8G*4)
主板: GIGABYTE X99-UD4
显卡: GTX Titan X
硬盘: SSD+普通硬盘

继续阅读 →

   发表在深度学习    |    标签为 GTX1080, GTX1080主机, 主机, 工作站, 技嘉GTX1080, 服务器, 深度学习, 深度学习PC, 深度学习主机, 深度学习工作站, 深度学习服务器, 深度学习机器, 深度学习电脑    |    9 条评论


QA问答系统中的深度学习技术实现发表于 2016年06月13号由 jiangwen
   应用场景
智能问答机器人火得不行，开始研究深度学习在NLP领域的应用已经有一段时间，最近在用深度学习模型直接进行QA系统的问答匹配。主流的还是CNN和LSTM，在网上没有找到特别合适的可用的代码，自己先写了一个CNN的（theano），效果还行，跟论文中的结论是吻合的。目前已经应用到了我们的产品上。
原理
参看《Applying Deep Learning To Answer Selection: A Study And An Open Task》，文中比较了好几种网络结构，选择了效果相对较好的其中一个来实现，网络描述如下：

Q&A共用一个网络，网络中包括HL，CNN，P+T和Cosine_Similarity，HL是一个g(W*X+b)的非线性变换，CNN就不说了，P是max_pooling，T是激活函数Tanh，最后的Cosine_Similarity表示将Q&A输出的语义表示向量进行相似度计算。
详细描述下从输入到输出的矩阵变换过程：

Qp：[batch_size, sequence_len]，Qp是Q之前的一个表示（在上图中没有画出）。所有句子需要截断或padding到一个固定长度（因为后面的CNN一般是处理固定长度的矩阵），例如句子包含3个字ABC，我们选择固定长度sequence_len为100，则需要将这个句子padding成ABC<a><a>…<a>(100个字)，其中的<a>就是添加的专门用于padding的无意义的符号。训练时都是做mini-batch的，所以这里是一个batch_size行的矩阵，每行是一个句子。
Q：[batch_size, sequence_len, embedding_size]。句子中的每个字都需要转换成对应的字向量，字向量的维度大小是embedding_size，这样Qp就从一个2维的矩阵变成了3维的Q
HL层输出：[batch_size, embedding_size, hl_size]。HL层：[embedding_size, hl_size]，Q中的每个句子会通过和HL层的点积进行变换，相当于将每个字的字向量从embedding_size大小变换到hl_size大小。
CNN+P+T输出：[batch_size, num_filters_total]。CNN的filter大小是[filter_size, hl_size]，列大小是hl_size，这个和字向量的大小是一样的，所以对每个句子而言，每个filter出来的结果是一个列向量（而不是矩阵），列向量再取max-pooling就变成了一个数字，每个filter输出一个数字，num_filters_total个filter出来的结果当然就是[num_filters_total]大小的向量，这样就得到了一个句子的语义表示向量。T就是在输出结果上加上Tanh激活函数。
Cosine_Similarity：[batch_size]。最后的一层并不是通常的分类或者回归的方法，而是采用了计算两个向量（Q&A）夹角的方法，下面是网络损失函数。，m是需要设定的参数margin，VQ、VA+、VA-分别是问题、正向答案、负向答案对应的语义表示向量。损失函数的意义就是：让正向答案和问题之间的向量cosine值要大于负向答案和问题的向量cosine值，大多少，就是margin这个参数来定义的。cosine值越大，两个向量越相近，所以通俗的说这个Loss就是要让正向的答案和问题愈来愈相似，让负向的答案和问题越来越不相似。

实现
代码点击这里，使用的数据是一份英文的insuranceQA，下面介绍代码重点部分：
字向量。本文采用字向量的方法，没有使用词向量。使用字向量的目的主要是为了解决未登录词的问题，这样在测试的时候就很少会遇到Unknown的字向量的问题了。而且字向量的效果也不一定比词向量的效果差，还省去了分词的各种麻烦。先用word2vec生成一份字向量，相当于我们在做pre-training了（之后测试了随机初始化字向量的方法，效果差不多）
原理中的步骤2。这里没有做HL层的变换，实际测试中，增加HL层有非常非常小的提升，所以在这里就省去了改步骤。

CNN可以设置多种大小的filter，最后各种filter的结果会拼接起来。

原理中的步骤4。这里执行卷积，max-pooling和Tanh激活。

生成的ouputs_1是一个python的list，使用concatenate将list的多个tensor拼接起来（list中的每个tensor表示一种大小的filter卷积的结果）

原理中的步骤5。计算问题、正向答案、负向答案的向量夹角

生成Loss损失函数和Accuracy。

核心的网络构建代码就是这些，其他的代码都是训练数据、验证数据的读入，以及theano构建训练时的一些常规代码。
如果需要增加HL层，可参照如下的代码。Whl即是HL层的网络，将input和Whl点积即可。

dropout的实现。

结果
使用上面的代码，Test 1的Top-1 Accuracy可以达到61%-62%，和论文中的结论基本一致了，至于论文中提到的GESD、AESD等方法没有再测试了，运行较慢，其他数据集也没有再测试了。
下面是国外友人用一个叫keras的工具（封装的theano和tensorflow）弄的类似代码，Test 1的Top-1准确率在50%左右，比他这个要高

http://benjaminbolte.com/blog/2016/keras-language-modeling.html
Test setTop-1 AccuracyMean Reciprocal Rank
Test 10.49330.6189
Test 20.46060.5968
Dev0.47000.6088另外，原始的insuranceQA需要进行一些处理才能在这个代码上使用，具体参看github上的说明吧。
一些技巧

字向量和词向量的效果相当。所以优先使用字向量，省去了分词的麻烦，还能更好的避免未登录词的问题，何乐而不为。
字向量不是固定的，在训练中会更新。
Dropout的使用对最高的准确率没有很大的影响，但是使用了Dropout的结果更稳定，准确率的波动会更小，所以建议还是要使用Dropout的。不过Dropout也不易过度使用，比如Dropout的keep_prob概率如果设置到0.25，则模型收敛得更慢，训练时间长很多，效果也有可能会更差，设置会差很多。我这版代码使用的keep_prob为0.5，同时保证准确率和训练时间。另外，Dropout只应用到了max-pooling的结果上，其他地方没有再使用了，过多的使用反而不好。
如何生成训练集。每个训练case需要一个问题+一个正向答案+一个负向答案，很明显问题和正向答案都是有的，负向答案的生成方法就是随机采样，这样就不需要涉及任何人工标注工作了，可以很方便的应用到大数据集上。
HL层的效果不明显，有很微量的提升。如果HL层的大小是200，字向量是100，则HL层相当于将字向量再放大一倍，这个感觉没有多少信息可利用的，还不如直接将字向量设置成200，还省去了HL这一层的变换。
margin的值一般都设置得比较小。这里用的是0.05
如果将Cosine_similarity这一层换成分类或者回归，印象中效果是不如Cosine_similarity的（具体数据忘了）
num_filters越大并不是效果越好，基本到了一定程度就很难提升了，反而会降低训练速度。
同时也写了tensorflow版本代码，对比theano的，效果差不多。
Adam和SGD两种训练方法比较，Adam训练速度貌似会更快一些，效果基本也持平吧，没有太细节的对比。不过同样的网络+SGD，theano好像训练要更快一些。
Loss和Accuracy是比较重要的监控参数。如果写一个新的网络的话，类似的指标是很有必要的，可以在每个迭代中评估网络是否正在收敛。因为调试比较麻烦，所以通过这些参数能评估你的网络写对没，参数设置是否正确。
网络的参数还是比较重要的，如果一些参数设置不合理，很有可能结果千差万别，记得最初用tensorflow实现的时候，应该是dropout设置得太小，导致效果很差，很久才找到原因。所以调参和微调网络还是需要一定的技巧和经验的，做这版代码的时候就经历了一段比较痛苦的调参过程，最开始还怀疑是网络设计或是代码有问题，最后总结应该就是参数没设置好。

结语
如果关注这个东西的人多的话，后面还可以有tensorflow版本的QA CNN，以及LSTM的代码奉上

补充
tensorflow的CNN代码已添加到github上，点击这里
Contact: jiangwen127@gmail.com weibo:码坛奥沙利文

   发表在机器学习, 深度学习, 自然语言处理, 问答系统    |    19 条评论


达观数据搜索引擎的Query自动纠错技术和架构详解发表于 2016年04月27号由 recommender
   1 背景如今，搜索引擎是人们的获取信息最重要的方式之一，在搜索页面小小的输入框中，只需输入几个关键字，就能找到你感兴趣问题的相关网页。搜索巨头Google，甚至已经使Google这个创造出来的单词成为动词，有问题Google一下就可以。在国内，百度也同样成为一个动词。除了通用搜索需求外，很多垂直细分领域的搜索需求也很旺盛，比如电商网站的产品搜索，文学网站的小说搜索等。面对这些需求，达观数据(www.datagrand.com)作为国内提供中文云搜索服务的高科技公司，为合作伙伴提供高质量的搜索技术服务，并进行搜索服务的统计分析等功能。（达观数据联合创始人高翔）
搜索引擎系统最基本最核心的功能是信息检索，找到含有关键字的网页或文档，然后按照一定排序将结果给出。在此基础之上，搜索引擎能够提供更多更复杂的功能来提升用户体验。对于一个成熟的搜索引擎系统，用户看似简单的搜索过程，需要在系统中经过多个环节，多个模块协同工作，才能提供一个让人满意的搜索结果。其中拼写纠错（Error Correction，以下简称EC）是用户比较容易感知的一个功能，比如百度的纠错功能如下图所示：