Tensorflow
roxxo
这个作者很懒,什么都没留下…
展开
-
搭建Tensorrt环境
按照tar包的方式配置了后,https://docs.nvidia.com/deeplearning/tensorrt/install-guide/index.html#installing-tar进入samples目录,make 报如下错/usr/bin/ld: cannot find -lnvrtc/usr/bin/ld: cannot find -lcublas/usr/bin/ld: cannot find -lcudnncollect2: error: ld returned...原创 2021-01-19 17:23:02 · 265 阅读 · 1 评论 -
解决相关训练报 OpKernel was found, but attributes didn‘t match) Requested Attributes: T=DT_BFLOAT16
解决相关训练报OpKernel was found, but attributes didn't match) Requested Attributes: T=DT_BFLOAT16I1102 08:59:56.310849 139771096057664 basic_session_run_hooks.py:606] Saving checkpoints for 0 into /notebooks/efficientnet/model300/model.ckpt.2020-11-02 09:00.原创 2020-11-03 11:02:42 · 497 阅读 · 0 评论 -
读取tfrecord文件时报错
解决在读取tfrecord文件时报Invalid argument: Input to reshape is a tensor with 6123 values, but the requested shape has 602112 [[{{node Reshape}}]] [[truediv/_11]]tfrecord文件封装的格式和解析函数中格式不一致引起 ,检查文件解析函数是否正确...原创 2020-10-22 15:21:04 · 385 阅读 · 0 评论 -
制作tfrecord 数据集报错
制作tfrecord 数据集 报如下错,tensorflow.python.framework.errors_impl.InvalidArgumentError: Expected image (JPEG, PNG, or GIF), got unknown format starting with 'All images in th'检查 数据集路径下 是否存在 类似 .ipython 的其他格式文件...原创 2020-10-21 11:52:47 · 209 阅读 · 0 评论 -
解决tfrecored制作报错
谷歌近期开源了 TensorFlow Recorder尝试使用 报错最末一行 AttributeError: DataFrame does not contain column split listed in schema参看https://github.com/google/tensorflow-recorderDefault SchemaThis format looks like a Pandas DataFrame or CSV formatted as:...原创 2020-10-19 16:08:39 · 166 阅读 · 0 评论 -
解决 报错 TypeError: interleave() got an unexpected keyword argument ‘deterministic‘
运行相关tensorflow 训练调用 imagenet_input.py 代码, num_parallel_calls=self.num_parallel_calls, deterministic=False)TypeError: interleave() got an unexpected keyword argument 'deterministic'查看相关代码 提示ImageNet input pipeline using tf.data.Dataset."""调用了in..原创 2020-10-16 13:39:13 · 1272 阅读 · 0 评论 -
解决 训练时 报TypeError: ‘NoneType‘ object is not callable
训练时 报TypeError: 'NoneType' object is not callableException ignored in: <bound method BaseSession.__del__ of <tensorflow.python.client.session.Session object at 0x7f85b597cac8>>Traceback (most recent call last): File "/usr/local/lib/python..原创 2020-09-17 13:56:06 · 831 阅读 · 0 评论 -
解决升级tensorflow到2.0的 报错
今天在升级tensorflow 后,运行相关脚本 ,一行代码报如下报AttributeError: module 'tensorflow' has no attribute 'decode_raw'网上度娘没查到, 用tf的升级工具试了下tf_upgrade_v2 --infile Train.py --outfile Train-new.py可以看到 tf.decode_raw 改为tf.io.decode_raw...原创 2020-06-09 16:24:28 · 1407 阅读 · 0 评论 -
tensorflow ckpt和pb格式模型加载
加载 ckpt格式 checkpoint_file = tf.train.latest_checkpoint(ckpt_modelpath) #load ckpt模型 tf.saver.restore(sess, self.checkpoint_file)导出pb格式模型参看 如下链接 导出最佳验证模型https://tensorflow.google.cn/versions/r1.15/api_docs/pyt...原创 2020-06-05 15:54:18 · 567 阅读 · 0 评论 -
解决TF训练提示 Not using XLA:CPU for cluster
训练时一直未太关注该搞错,启动训练后报警提示如下,了解了下XLA的设置,对性能有一定提升, 于是尝试解决 W tensorflow/compiler/jit/mark_for_compilation_pass.cc:1412] (One-time warning): Not using XLA:CPU for cluster because envvar TF_XLA_FLAGS=--tf_xla_cpu_global_jit was not set. If you want XLA:CPU, ei..原创 2020-05-19 10:01:39 · 8918 阅读 · 0 评论 -
解决 ImportError: Extension horovod.tensorflow has not been built
在使用horovod autotune 功能 ,提示 horovodrun: error: unrecognized arguments: --autotune --autotune-log-filehorovod -h 查看 确实没有autotunehorovod -v查看 版本 0.16.1于是 按照相关命令HOROVOD_GPU_ALLREDUCE=...原创 2020-04-21 14:17:41 · 2157 阅读 · 2 评论 -
使用分布式框架horovod 未能提升加速训练
使用分布式框架horovod ,初步使用了单机多卡 ,跑测的estimator, 数据集大概十几个分类,1万张照照片,调用4个gpu从图里看出训练时长17个小时左右 ,与之前单机单卡训练时长和准确率没有太大区别,浪费资源啊!看了horvord的训练模式,分别起了4个进程,而不是一个进程该操作 与TF 的experimental.MultiWorkerMirroredStrateg...原创 2020-04-21 09:40:47 · 629 阅读 · 3 评论 -
解决分布式训练 报terminate called after throwing an instance of 'std::length_error'
在进行分布式进行训练,INFO:tensorflow:Reduce to /replica:0/task:0/device:CPU:0 then broadcast to ('/replica:0/task:0/device:CPU:0',).I0408 04:01:41.507015 140706188736256 cross_device_ops.py:427] Reduce to /r...原创 2020-04-08 13:14:46 · 3224 阅读 · 0 评论 -
解决 cuda10 环境上 tf.test.is_gpu_available() 为false
.升级Tensorflow 1.15 以及 cuda10,进行分布式训练 ,发现gpu 内存都只占用 145M,开始测试单个卡也是145M,使用如下简单测试下gpu是否能调用import tensorflow as tfimport osos.environ['CUDA_VISIBLE_DEVICES'] = "1"print(tf.test.is_gpu_available())...原创 2020-03-27 11:56:53 · 12071 阅读 · 1 评论 -
解决module 'dlib' has no attribute 'load_rgb_image'
在生成相关图片的过程中 ,提示module 'dlib' has no attribute 'load_rgb_image'默认环境的dlib版本需升级解决办法 1.pipuninstalled dlib 2.pip install dlib原创 2020-02-14 16:32:16 · 2338 阅读 · 4 评论 -
解决 AttributeError: module 'tensorflow.python.ops.variable_scope' has no attribute '_VARSCOPE_KEY'
在学习Knifey-Spoony数据集上做分类的神经网络。它将Inception模型得到的transfer-values作为输入,运行报如下两个错一/usr/local/lib/python3.5/dist-packages/prettytensor/scopes.py in var_and_name_scope(names) 53 full_name = va...原创 2019-02-22 16:11:09 · 7999 阅读 · 23 评论 -
解决运行MNist 数据集 报 tf.app.run(main=main, argv=[sys.argv[0]] + unparsed)
运行Tensorflow 官方的MNist 训练脚本 报 tf.app.run(main=main, argv=[sys.argv[0]] + unparsed)参考 该文章 https://blog.csdn.net/weixin_38208741/article/details/72377222 升级TF后 仍然有相关报错, 仔细 查看报错信息将目录下的 dataset.py ...原创 2019-02-17 16:47:16 · 1093 阅读 · 1 评论 -
Pytorch 在没有Conda的环境上安装
基于该文章 https://blog.csdn.net/yucicheung/article/details/79094657和python3 Tensorflow 环境 https://hub.docker.com/r/tensorflow/tensorflow 安装没有安装conda的情况 只需如下命令 即可完成安装pip3 install torch torchvision...原创 2019-02-25 13:36:16 · 1314 阅读 · 0 评论 -
执行 convolutional_network 时报No gradients provided for any variable
在学习Tensorflow 执行convolutional_network的脚本时 报,其他几个也一样 ValueError: No gradients provided for any variable, check your graph for ops that do not support gradients 将 tf.reduce_mean(tf.nn.softmax_cros...翻译 2019-02-21 10:18:21 · 1781 阅读 · 2 评论 -
Tensorflow 中earlystopping的使用
参考该文章https://blog.csdn.net/zongza/article/details/85017351报错Key signal_early_stopping/STOP not found in checkpointRestoreV2[dtypes=[DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, DT_FLOAT, ..., DT_F...原创 2019-05-07 15:43:24 · 3568 阅读 · 2 评论 -
解决 ImportError: libcublas.so.10.0:
升级到cuda10 环境 1.在jupyter terminal 中 进入python import tensorflow as tf 没问题 ,在ipython中执行报ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory查看 对应的/usr/lo...原创 2019-05-22 15:36:17 · 5025 阅读 · 0 评论 -
解决Docker + Tensorflow serving启动服务时占用所有GPU
Docker + Tensorflow serving启动服务 官网命令如下docker run -p 8503:8501 -t $USER/resnet_serving 后会将所有占用剩余的GPU ,但实际只需使用一个 启动命令中加入红色部分docker run -p 8503:8501 --name tfserving-resnet -e NVIDIA_VISIBL...原创 2019-05-29 16:33:53 · 2442 阅读 · 0 评论 -
CIFAR-10 生成TFrecord数据 报 has type str, but expected one of: bytes
记录一下 学习 将cifa10 转为tfrecord ,pytho3.5def _bytes_feature(value): return tf.train.Feature(bytes_list=tf.train.BytesList(value=[str(value)]))报 TypeError: 'b\';+2Dbw\\x8b\\x91\\x95\ ..... has ty...原创 2019-06-26 16:58:46 · 579 阅读 · 0 评论 -
解决 grpc模型预测 Please switch to GA gRPC API in prediction_service_pb2_grpc.
参考 文章https://blog.csdn.net/shin627077/article/details/78592729 调试TFServing模型预测grpc模型测试 调用相关函数过期调用过程中报错 DeprecationWarning: beta_create_PredictionService_stub() method is deprecated. This me...原创 2019-07-08 16:19:31 · 1438 阅读 · 0 评论 -
解决TFServing grpc模式 时报No module named 'tensorflow_serving'
调试TFServing grpc模式 ,部署相关模型后报如下问题File "resnet_client_grpc.py", line 27, in <module> from tensorflow_serving.apis import predict_pb2ImportError: No module named 'tensorflow_serving'解决...转载 2019-07-05 11:01:30 · 3225 阅读 · 0 评论 -
解决TFServeing 模型预测不准确
TFServeing进行模型预测,模型导出部署后,通过grpc方式访问预测,返回的值君一样通过对模型训练、client脚本、数据转换多方定位,发送数据应该没有问题,模型本身也没问题,准确率都很高,以及都能按照格式返回预测结果最后定位到导出模型中使用的serving_input_fn(): 函数中features 定义的有问题如果你的模型预测不准,可参考...原创 2019-07-25 13:52:52 · 529 阅读 · 0 评论