tensorflow分布式部署
文章平均质量分 85
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
一 安装Ubuntu+配置环境+安装TensorRT
最近研究推理加速,涉及到TensorRT,加上之前一直也想搞个Ubuntu系统,所以就打算一步到位,双系统安排。刻录U盘的前期步骤可以参考文章:windows10安装ubuntu双系统教程(绝对史上最详细) - 不妨不妨,来日方长 - 博客园www.cnblogs.com这里注意前期不用分区,那些分区的步骤直接跳过,我自己最开始就是按照分区进行安装,一直有问题,所以这里不建议参考分区。当安装Ubuntu的时候,注意以下选择:准备事项注:如果网络和空间匀速,建议选择“安装中下载更转载 2021-08-01 22:21:05 · 336 阅读 · 0 评论 -
##haohaohao#######蘑菇街自研服务框架如何提升在线推理效率?
Online Serving 简介从本质而言,在线服务就是提供 (http, rpc) 等接口,用户输入 X, X 经过 pre-process 处理成符合模型输入的参数,经由模型推理后得到 Y,Y 经过 post-process 处理成符合用户认知的数据格式,最后将结果返回。第 2 步和训练中的 evalute/test 相应步骤几乎一样,只是在线推理下的 batch size 往往为 1,远远小于训练过程中的 batch size,故在线推理下的显卡和显存的利用率相对训练更低。1. X =转载 2020-07-21 16:42:59 · 298 阅读 · 0 评论 -
什么是Tensor
tensor是tensorflow基础的一个概念——张量。Tensorflow用到了数据流图,数据流图包括数据(Data)、流(Flow)、图(Graph)。Tensorflow里的数据用到的都是tensor,所以谷歌起名为tensorflow。下面介绍张量几个比较重要的概念张量的维度(秩):Rank/OrderRank为0、1、2时分别称为标量、向量和矩阵,Rank为3时是3阶张量,R...转载 2018-08-16 11:04:28 · 2405 阅读 · 0 评论 -
Tensor(tf.Tensor)
Tensor类应该是最基本最核心的数据结构了,他表示的是一个操作的输出,但是他并不接收操作输出的值,而是提供了在TensorFlow的Session中计算这些值的方法。Tensor类主要有两个目的:1.一个Tensor能够作为一个输入来传递给其他的操作(Operation),由此构造了一个连接不同操作的数据流,使得TensorFLow能够执行一个表示很大,多步骤计算的图。2.在图被“投放...转载 2018-08-16 10:23:16 · 5680 阅读 · 0 评论 -
深度学习在美团搜索广告排序的应用实践
一、前言在计算广告场景中,需要平衡和优化三个参与方——用户、广告主、平台的关键指标,而预估点击率CTR(Click-through Rate)和转化率CVR(Conversion Rate)是其中非常重要的一环,准确地预估CTR和CVR对于提高流量变现效率,提升广告主ROI(Return on Investment),保证用户体验等都有重要的指导作用。传统的CTR/CVR预估,典型的机器学习方法包...转载 2018-07-03 14:53:08 · 431 阅读 · 0 评论 -
使用TensorFlow训练WDL模型性能问题定位与调优
简介TensorFlow是Google研发的第二代人工智能学习系统,能够处理多种深度学习算法模型,以功能强大和高可扩展性而著称。TensorFlow完全开源,所以很多公司都在使用,但是美团点评在使用分布式TensorFlow训练WDL模型时,发现训练速度很慢,难以满足业务需求。经过对TensorFlow框架和Hadoop的分析定位,发现在数据输入、集群网络和计算内存分配等层面出现性能瓶颈。主要原因...转载 2018-07-03 10:33:05 · 781 阅读 · 0 评论 -
运行keras mnist_mlp.py错误解决
运行 python mnist_mlp.py 后 有如下错误: Using TensorFlow backend.Downloading data from https://s3.amazonaws.com/img-datasets/mnist.npzTraceback (most recent call last): File "mnist_mlp.py", line 22, in <...转载 2018-05-07 17:32:11 · 694 阅读 · 0 评论 -
keras中自定义验证集的性能评估(ROC,AUC)
在keras中自带的性能评估有准确性以及loss,当需要以auc作为评价验证集的好坏时,就得自己写个评价函数了:[python] view plain copy from sklearn.metrics import roc_auc_score [python] view plain copy from keras impo转载 2018-01-05 14:15:49 · 4496 阅读 · 4 评论 -
DCGAN基于Keras的实现
前几天学习了一下GAN的相关知识,有NIPS 2016中的教程, 还有知乎专栏的令人拍案叫绝的Wasserstein GAN,以及后续Wasserstein GAN最新进展:从weight clipping到gradient penalty,更加先进的Lipschitz限制手法 这两篇文章推导写的很好,有需要推荐直接看论文 还有深入浅出 GAN·原理篇文字版(完整)|干货先转载 2018-01-12 11:32:08 · 2997 阅读 · 1 评论 -
keras 与tensorflow 混合使用
keras 与tensorflow 混合使用keras 与tensorflow 混合使用tensorfow Fly keras最近tensorflow更新了新版本,到1.4了。做了许多更新,当然重要的是增加了tf.keras. 毕竟keras对于模型搭建的方便大家都是有目共睹的。喜欢keras风格的模型搭建而不喜欢tens转载 2017-12-25 17:22:39 · 11763 阅读 · 1 评论 -
TensorflowOnSpark:1)Standalone集群初体验
1.实验环境Centos7+Python2.7+Java8+Spark1.6+Hadoop2.7+Tensorflow0.12.1Spark和Hadoop的集群搭建网上教程比较多,这里以最简洁的方法配置集群,针对tensorflow添加的额外配置,我会进行强调(其实地上本没有坑,跌的人多了,也便成了Keng)1>系统环境环境变量export JAVA_HOME=/hadoo转载 2017-12-14 13:40:20 · 497 阅读 · 0 评论 -
tensorflow添加自定义的auc计算operator
tensorflow添加自定义的auc计算operatortensorflow可以很方便的添加用户自定义的operator(如果不添加也可以采用sklearn的auc计算函数或者自己写一个但是会在python执行,这里希望在graph中也就是c++端执行这个计算)这里根据工作需要添加一个计算auc的operator,只给出最简单实现,后续高级功能还是参考官方wikihttps://ww转载 2017-12-20 17:18:52 · 2364 阅读 · 0 评论 -
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍 在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1]。为了从海量数据中获得洞察力,需要部署分布式深度学习。现有的DL框架通常需要为深度学习设置单独的集群,迫使我们为机器学习流程创建多个程序(见Figure 1)。拥有独立的集群需要我们在它们之间传递大型数据集,从而引起不必要的系统复杂性和端到端的学习延迟。 TensorFlo转载 2017-11-22 16:15:03 · 638 阅读 · 2 评论 -
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建1. 介绍 在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1]。为了从海量数据中获得洞察力,需要部署分布式深度学习。现有的DL框架通常需要为深度学习设置单独的集群,迫使我们为机器学习流程创建多个程序(见Figure 1)。拥有独立的集群需要我转载 2017-10-19 09:53:30 · 2182 阅读 · 1 评论 -
#####好好好##### 双端 LSTM 实现序列标注(分词)
@author: huangyongye@creat_date: 2017-04-19前言本例子主要介绍如何使用 TensorFlow 来一步一步构建双端 LSTM 网络(听名字就感觉好腻害的样子),并完成序列标注的问题。先声明一下,本文中采用的方法主要参考了【中文分词系列】 4. 基于双向LSTM的seq2seq字标注这篇文章。该文章用 keras 框架来实现的双端 LSTM,在本例中,...转载 2018-08-16 11:51:32 · 951 阅读 · 1 评论 -
手把手教你如何部署深度学习模型
摘要: 本文将讲解如何部署深度学习模型,让你不再对如何快速地将机器学习模型部署到生产中感到困扰我刚刚训练了机器学习模型——那么现在呢?这篇文章介绍了一种快速的方法,将经过训练的机器学习模型部署到生产中。请阅读以下内容:如果您已经成功地使用诸如Tensorflow或Caffe这样的ML框架来培训ML模型,那么您最好先做一个演示,最好早一点而不是晚一点,而且您更喜欢更便捷的解决方案,而不是...转载 2018-09-07 15:45:21 · 22022 阅读 · 9 评论 -
##haohaohao##########tensorflow on kubernetes实战 分布式深度学习
写在前面态度决定高度!让优秀成为一种习惯! 世界上没有什么事儿是加一次班解决不了的,如果有,就加两次!(- - -茂强)为什么是tensorflow on kubernetes?个人觉得最大的优势是:租户隔离 保证不同的用户能够互不干扰 资源包括GPU调度 能够有效利用资源 扩展能力 能够很容易横向扩展 灵活 整个资源分配比较灵活 管理灵活 等等kubernetes集群的...转载 2019-04-15 10:11:28 · 450 阅读 · 0 评论 -
nvidia-docker2在kubernetes上实践
现在公司线上所有的k8s集群对GPU资源的使用都是nvidia-docker 1.0(历史遗留问题)。但是现在的kubernetes1.9推荐使用device plugin的方式来对接外部厂商的资源。这样所有的厂商资源就不要kubernetes去特定的支持,而是各服务厂商只要按照kubernetes提供的device plugin实现自己的一套就可以了。今天就针对nvidia-d...转载 2019-03-26 16:06:22 · 874 阅读 · 0 评论 -
安装使用NVIDIA-Docker-- 可使用GPU的Docker容器
nvidia-docker是一个可以使用GPU的docker,nvidia-docker是在docker上做了一层封装,通过nvidia-docker-plugin,然后调用到docker上,其最终实现的还是在docker的启动命令上携带一些必要的参数。因此在安装nvidia-docker之前,还是需要安装docker的。docker一般都是使用基于CPU的应用,而如果是GPU的话,就需要安装...转载 2019-03-13 15:46:17 · 962 阅读 · 0 评论 -
######好好好好##########Tensorflow Serving部署tensorflow、keras模型详解
写在篇前本篇介绍如何使用Tensorflow Serving组件导出训练好的Tensorflow模型,并使用标准tensorflow model server来部署深度学习模型预测服务。tensorflow model server主要负责管理新的导出模型并运行gRPC服务以方便终端用户调用。下面的代码都可以在我的实战项目github CaptchaIdentifier或者jefferyUst...转载 2019-03-13 11:40:35 · 826 阅读 · 0 评论 -
Nvidia-Docker安装(Ubuntu16.04,其它版本未验证)
6 nvidia-docker 安装添加源curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | \ sudo apt-key add -curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-docker.list | \ ...转载 2019-03-20 12:51:00 · 750 阅读 · 0 评论 -
用Docker容器自带的tensorflow serving部署模型对外服务(成功率100%)
前传:相信很多人和我一样,在试图安装tensorflow serving的时候,翻遍了网上的博客和官网文档,安装都是以失败而告终,我也是一样,这个问题折磨了我两个星期之久,都快放弃了。幸运的是在同事的建议下,我采用了一种迂回的策略安装成功了。我们采用的策略是: pull一个已经安装好了tensorflow serving的docker镜像,替换它自带的一些模型为我们...转载 2019-03-11 19:47:58 · 1081 阅读 · 0 评论 -
#######使用 Keras 和 Flask 构建一个在线 API
用Jupyter notebook 来进行演示在生产环境中并不是很实用,在应用环境中如果想要预测一个场景通常需要返回指定格式的文本形式的信息,我写了一个小例子,使用flask架构创建了一个简陋的API,客户端通过curl工具上传图片,并返回指定格式的json流。首先需要安装flaskpip install flask将下面的代码保存为 keras_api.py 然后在实验环境下输入 py...转载 2018-11-28 17:19:59 · 856 阅读 · 1 评论 -
深度模型部署上云——环境配置
前阵子参考一份外文的教程(https://www.pyimagesearch.com/2018/02/05/deep-learning-production-keras-redis-flask-apache/)在云端部署了一项深度模型web服务,其中反反复复最繁琐的就是环境配置(中间出了一点波折,还曾经在在winServer上配了一次),下面捡其中重要的记录一下。环境:ubuntu 16.04...转载 2018-11-25 13:08:50 · 968 阅读 · 0 评论 -
将keras的h5模型转换为tensorflow的pb模型
背景:目前keras框架使用简单,很容易上手,深得广大算法工程师的喜爱,但是当部署到客户端时,可能会出现各种各样的bug,甚至不支持使用keras,本文来解决的是将keras的h5模型转换为客户端常用的tensorflow的pb模型并使用tensorflow加载pb模型。h5_to_pb.pyfrom keras.models import load_modelimport tenso...转载 2018-11-25 11:59:37 · 11605 阅读 · 2 评论 -
TensorFlow 模型如何对外提供服务
TensorFlow 是目前最为流行的机器学习框架之一,通过它我们可以便捷地构建机器学习模型。使用 TensorFlow 模型对外提供服务有若干种方式,本文将介绍如何使用 SavedModel 机制来编写模型预测接口。鸢尾花深层神经网络分类器首先让我们使用 TensorFlow 的深层神经网络模型来构建一个鸢尾花的分类器。完整的教程可以在 TensorFlow 的官方文档中查看(Prema...转载 2018-11-25 11:54:54 · 1416 阅读 · 0 评论 -
教程 | 如何使用Keras、Redis、Flask和Apache把深度学习模型部署到生产环境?
本文介绍了如何使用 Keras、Redis、Flask 和 Apache 将自己的深度学习模型迁移到生产环境。文中的大多数工具可以互换,比如 Keras 可替换成 TensorFlow 或 PyTorch,Django 可代替 Flask,Nginx 可代替 Apache。作者唯一不推荐替换的工具是 Redis。同时本文还对深度学习 REST API 进行了压力测试,这种方法可以轻松扩展到添加的服...翻译 2018-09-07 15:49:15 · 3256 阅读 · 2 评论 -
【深度学习&分布式】Parameter Server 详解
Parameter Server 详解本博客仅为作者记录笔记之用,不免有很多细节不对之处。还望各位看官能够见谅,欢迎批评指正。更多相关博客请猛戳:http://blog.csdn.net/cyh_24如需转载,请附上本文链接:http://blog.csdn.net/cyh_24/article/details/50545780MXNet 是李沐和陈天奇等各路英雄豪转载 2017-09-22 15:56:36 · 683 阅读 · 0 评论 -
数十种TensorFlow实现案例汇集:代码+笔记
这是使用 TensorFlow 实现流行的机器学习算法的教程汇集。本汇集的目标是让读者可以轻松通过案例深入 TensorFlow。这些案例适合那些想要清晰简明的 TensorFlow 实现案例的初学者。本教程还包含了笔记和带有注解的代码。项目地址:https://github.com/aymericdamien/TensorFlow-Examples教程索引0 -转载 2017-08-30 11:45:45 · 1788 阅读 · 0 评论 -
tensorflow常用函数及概念
命令式编程与声明式编程命令式编程(imperative programming):每个语句都按原来的意思执行,可以精确控制行为。通常可以无缝的和主语言交互,方便的利用主语言的各类算法,工具包,bug和性能调试器。缺点是实现统一的辅助函数困和提供整体优化都很困难。比如numpy和Torch。 声明式语言(declarative programing):用户只需要声明要做什么,而具体执行则转载 2017-09-06 14:05:58 · 373 阅读 · 1 评论 -
tensorflow实现偏微分方程的例子--模拟水滴掉落
TensorFlow 不仅仅是用来机器学习,它更可以用来模拟仿真。在这里,我们将通过模拟仿真几滴落入一块方形水池的雨点的例子,来引导您如何使用 TensorFlow 中的偏微分方程来模拟仿真的基本使用方法。注:本教程最初是准备做为一个 IPython 的手册。译者注:关于偏微分方程的相关知识,译者推荐读者查看 网易公开课 上的《麻省理工学院公开课:多变量微积分》课程。基转载 2017-04-28 11:04:07 · 3896 阅读 · 0 评论 -
【TensorFlow】学习率、迭代次数和初始化方式对准确率的影响
想必学过机器学习的人都知道,学习率、训练迭代次数和模型参数的初始化方式都对模型最后的准确率有一定的影响,那么影响到底有多大呢?我初步做了个实验,在 TensorFlow 框架下使用 Logistics Regression 对经典的 MNIST 数据集进行分类。本文所说的 准确率 均指 测试准确率。代码from tensorflow.examples.tutorials.m转载 2017-03-10 13:27:41 · 7277 阅读 · 0 评论 -
(尤其是训练集验证集的生成)深度学习 tensorflow 实战(2) 实现简单神经网络以及随机梯度下降算法S.G.D
在之前的实战(1) 中,我们将数据清洗整理后,得到了'notMNIST.pickle'数据。本文将阐述利用tensorflow创建一个简单的神经网络以及随机梯度下降算法。[java] view plain copy print?# These are all the modules we'll be using later. Make sure yo转载 2017-03-06 11:15:23 · 6396 阅读 · 0 评论 -
#########TensorBoard——Tensor与Graph可视化####(如何使用参考上一篇介绍)#######
前言本文基于TensorFlow官网How-Tos的Visualizing Learning和Graph Visualization写成。TensorBoard是TensorFlow自带的一个可视化工具。本文在学习笔记(4)的基础上修改少量代码,以探索TensorBoard的使用方法。代码# -*- coding=utf-8 -*-# @author: 陈水平# @date:转载 2017-03-09 14:41:34 · 2381 阅读 · 2 评论 -
从0开始--可视化调试工具tensorboard
TensorBoardTensorBoard的官网教程如下: https://www.tensorflow.org/versions/r0.7/how_tos/summaries_and_tensorboard/index.html简单解释下:TensorBoard是个可视化工具,可以用来查看TensorFlow的图以及过程中的各种值和图像等。 1. 在tensorflow程序中给转载 2017-03-09 13:23:53 · 940 阅读 · 0 评论 -
(#########优化器函数########)TensorFlow实现与优化深度神经网络
反正是要学一些API的,不如直接从例子里面学习怎么使用API,这样同时可以复习一下一些基本的机器学习知识。但是一开始开始和以前一样,先直接讲类和常用函数用法,然后举例子。这里主要是各种优化器,以及使用。因为大多数机器学习任务就是最小化损失,在损失定义的情况下,后面的工作就交给优化器啦 https://www.tensorflow.org/versions/r0.11/api_docs/转载 2017-03-06 09:48:34 · 3934 阅读 · 0 评论 -
######(较深的应用)TensorFlow学习(三):Graph和Session ######(较深的应用)
之前讲完变量常量等等基本量的操作,意味着最基本的东西都有了,然后接下来很重要的就是那些量和操作怎么组成更大的集合,怎么运行这个集合。这些就是计算图谱graph和Session的作用了。IV.Graphhttps://www.tensorflow.org/versions/r0.11/api_docs/python/framework.html#Graph一个TensorFlow的运转载 2017-03-03 16:32:38 · 4400 阅读 · 0 评论 -
#######TensorFlow深度学习,一篇文章就够了#########
作者: 陈迪豪,就职小米科技,深度学习工程师,TensorFlow代码提交者。TensorFlow深度学习框架Google不仅是大数据和云计算的领导者,在机器学习和深度学习上也有很好的实践和积累,在2015年年底开源了内部使用的深度学习框架TensorFlow。与Caffe、Theano、Torch、MXNet等框架相比,TensorFlow在Github上Fork数和Star数都转载 2017-03-02 13:45:35 · 630 阅读 · 0 评论 -
如何使用Keras进行分布式/多GPU运算?
如何使用Keras进行分布式/多GPU运算?Keras在使用TensorFlow作为后端的时候可以进行分布式/多GPU的运算,Keras对多GPU和分布式的支持是通过TF完成的。with tf.device('/gpu:0'): x = tf.placeholder(tf.float32, shape=(None, 20, 64)) y = LSTM(32)(x) #转载 2017-03-01 14:11:09 · 17480 阅读 · 6 评论 -
理解和实现分布式TensorFlow集群完整教程
手把手教你搭建分布式集群,进入生产环境的TensorFlow分布式TensorFlow简介前一篇《分布式TensorFlow集群local server使用详解》我们介绍了分布式TensorFlow的基本概念,现在我们可以动手搭建一个真正的分布式TensorFlow集群。分布式TensorFlow集群由多个服务端进程和客户端进程组成,在某些场景下,服务端和客户端可以写到同一个Pytho转载 2017-02-28 17:11:30 · 17763 阅读 · 1 评论