![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 51
gyl2016
这个作者很懒,什么都没留下…
展开
-
TypeError: only integer tensors of a single element can be converted to an index
深度学习中遇到的bug原创 2022-09-15 17:26:02 · 5770 阅读 · 1 评论 -
Large-batch-size与模型泛化性的问题
paper—《Bag of Tricks for Image Classification with Convolutional Neural Networks》中提到“Using large batch size, however, may slow down the training progress. For convex problems, convergence rate decreases as batch size increases. Similar empirical results原创 2022-01-03 17:52:35 · 1045 阅读 · 0 评论 -
Tensorflow 获取model中的变量列表
1、动态获取 + 朴素获取法 + 朴素获取可训练变量:t_vars = tf.trainable_variables() + 朴素获取全部变量,包含声明training=False变量:all_vars = tf.global_variables() + 使用tensorflow.contrib.slim + 获取常规变量(是slim里面与model变量对应的一个类型):regular_variables = slim.get_variable...原创 2021-07-02 20:57:05 · 740 阅读 · 0 评论 -
keras获取中间层结果的两种方式
keras获取中间层有两种方式:(1)通过tf.keras.backend.function函数获取;(2)通过tf.keras.models.Model函数获取;对于第一种方式,主要是利用tensor name获取,具体可见https://blog.csdn.net/NOT_GUY/article/details/108290883;对于第二种方式,使用步骤如下:1)第一步,构建好模型;2)第二步,利用keras的summary函数打印模型结构图;3)第三步,训练模型;4)原创 2021-05-12 20:02:01 · 1752 阅读 · 0 评论 -
tensorflow使用cpu不用gpu的问题
前提:cuda版本和cudnn版本已安装好,版本对应没问题;问题:在安装好cuda、tensorflow、tensorflow-gpu的环境下,调用tensorflow跑模型,发现cpu资源占满,而gpu处于空闲状态。导致上述问题的原因可能有两个:(1)tensorflow-gpu的版本低于tensorflow的版本;(2)cuda版本与tensorflow-gpu版本对应不上;对于第一个原因:tensorflow-gpu的版本低于tensorflow的版本,有以下检查方法:(1)跑模原创 2021-03-25 10:55:19 · 3855 阅读 · 0 评论 -
基于tensorflow-hub使用预训练bert模型——简单易上手成功率百分百
最近,研究了下如何使用基于tensorflow-hub中预训练bert,一开始找到的关于预模型使用介绍的官方教程国内打不开,所以看了很多博客遇到了很多坑,直至最后找到能打开的教程,才发现使用很简单。实验版本: tensorflow版本: 2.3.0 tensorflow-hub版本:0.9.0 python版本: 3.7.6数据准备: 首先,熟悉bert的都知道输入有3个:input_ids、input_mask、seg...原创 2020-10-02 00:11:51 · 3788 阅读 · 1 评论 -
Non-OK-status: tensorflow::Env::Default()->DeleteFile(ptx_path) status: Not found
最近在跑程序时,出现过好几次这个问题,当时在官方tensorflow的github上查到了这个问题,见:https://github.com/tensorflow/tensorflow/issues/39712,工作人员回复让试一下tf-nightly(应该是最新迭代的版本),但由于tensorflow版本多人再用,所以也没试这种方法。今天又碰到这个问题,研究了一下,下面首先给出我这里几次碰到这个问题的背景:(1)由于有多人在使用GPU,所以前几次都是在GPU占用比较大的情况下,然后我跑个程序就出现原创 2020-09-28 00:25:48 · 671 阅读 · 1 评论 -
tensorflow.keras中多输入多输出遇到的几个问题
这里,主要是想构建3个输出,然后计算3个输出的损失函数,并按权重将损失函数加起来作为总的损失模型构建部分class MyModel_add3loss(tf.keras.Model): def __init__(self): super(MyModel_add3loss,self).__init__() self.inputa = tf.keras.layers.InputLayer(input_shape=(60, 8, 1)) self.原创 2020-09-23 17:02:20 · 6582 阅读 · 8 评论 -
ValueError: Output tensors to a Model must be the output of a TensorFlow `Layer`
最近在看tensorflow.keras的多输入多输出时,碰到了这个问题,在这里记录一下。首先给出报错代码:# 两个输入main_input = tf.keras.layers.Input(shape=(784,),dtype=tf.float32,name="main_input")auxiliary_input = tf.keras.layers.Input(shape=784,),dtype=tf.float32,name="auxiliary_input")## 网络1x = t原创 2020-09-15 17:31:55 · 3299 阅读 · 1 评论 -
tensorflow中使用预训练模型进行微调
预训练模型进行微调定义模型class MyModel(tf.keras.Model): def __init__(self, height=None,width=None,channel=None): super(MyModel,self).__init__() self.inputshape = tf.keras.layers.InputLayer(input_shape=(height,width,channel)) # self.原创 2020-08-29 16:20:48 · 1284 阅读 · 0 评论 -
tensorflow获取模型中间层结果及错误tf.keras.backend.function Layer ‘ + self.name + ‘ has no inbound nodes.
错误使用1、构建模型:import tensorflow as tfimport collectionsfrom efficientnet import tfkerasclass MyModel(tf.keras.Model): def __init__(self, height=None,width=None,channel=None): super(MyModel,self).__init__() self.inputshape = tf.原创 2020-08-29 10:55:13 · 4813 阅读 · 11 评论 -
GPU在bash和python代码中的写法
1、bash中## bash设定GPU卡顺序:export CUDA_DEVICE_ORDER = "PCI_BUS_ID"指定第1块和第2块GPU卡:export CUDA_VISIBLE_DEVICES="0,1"2、python代码中## pythonimport osos.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"...原创 2020-03-01 14:29:10 · 2522 阅读 · 0 评论 -
一文了解深度学习在NLP中的最佳实践经验和技巧
原文:http://ruder.io/deep-learning-nlp-best-practices/index.html#attention翻译:https://www.sohu.com/a/192392432_99979179 在NLP社区中曾流行着这样一个玩笑,说是一个带注意力机制的LSTM模型在任何的NLP任务上的表现都是最好的。虽然这在过去的两年中确实如此,但这个模型已经成...转载 2019-01-26 21:08:56 · 460 阅读 · 0 评论 -
vanilla RNNs和LSTM和GRU公式推导相关
1、 vanilla RNNs 文章转自https://blog.csdn.net/dchen1993/article/details/53885490相比于LSTM、GRU,vanilla RNNs 是最简单的循环神经网络。RNN结构RNN的一个特点是所有隐层共享参数(U, W, V),整个网络只用这一套参数,能大大减少计算量。RNN前向传导,其中,可以是sigmoi...转载 2018-11-11 22:12:26 · 2085 阅读 · 0 评论 -
深度学习中卷积核问题
1、卷积核为什么采用奇数?浅层来看,肯定采用卷积核尺寸采用偶数×偶数的效果比奇数×奇数差。(1)保证了锚点刚好在中间,方便以模块中心为标准进行滑动卷积;(2)考虑padding时,图像的两边依然相对称。2、1×1卷积核的作用(1)可以对图像进行升维操作和降维操作;(2)多个feature map的线性组合,实现跨通道的交互和信息整合。3、GoogleNet中浅层的inception模块的3×3和5...原创 2018-06-23 19:24:54 · 1882 阅读 · 0 评论