tensorflow
文章平均质量分 68
后厂村葫芦娃
这个作者很懒,什么都没留下…
展开
-
Could not satisfy explicit device specification '/job:worker/task:0/device:GPU:1' because no support
如上图报错,说gpu没有支持的kernel。原因是应为在tensorflow中,定义在图中的op,有的只能再cup中运行,gpu中不支持。解决方法就是让op自动识别,让它选择在合适的地方运行即可。如果op中有标识的话,在运行的时候指定在cup上执行,如果无法区分的话,可以试试在sess.run的时候加入allow_soft_placement=True。例如:sess = tf.Session(c...原创 2017-12-12 19:38:47 · 4151 阅读 · 0 评论 -
生成tfrecod类型数据集
最近在做tensorflow分布式训练时,遇到一个问题,就是在分布式文件系统中,tensorflow读取jpeg数据很慢,因为有十几万的图片,导致要读半个小时以上,所以想提高数据读取速度,就把jpeg数据转换成tfrecord类型数据。我已celeba数据为例,二十多万张图片,转换成tfrecord类型的数据后,读取这些数据只要30秒左右。 其实在tensorflow...原创 2018-04-07 20:54:31 · 688 阅读 · 0 评论 -
assertion failed: [Unable to decode bytes as JPEG, PNG, GIF, or BMP
具体报错如下:INFO:tensorflow:Error reported to Coordinator: <class 'tensorflow.python.framework.errors_impl.InvalidArgumentError'>, assertion failed: [Unable to decode bytes as JPEG, PNG, GIF, or BM...原创 2018-07-23 14:16:21 · 4911 阅读 · 10 评论 -
tensorflow分布式情况下,ps负载不均衡
先说下问题背景,在tensorflow官方支持的分布式中,即ps,worker模式中,由于模型变量的因素,导致变量在ps上初始化的时候负载不均衡,到时影响训练性能,最近就遇到这种问题,测的是inception_v3这个模型,在分布式中,看各个ps所在机器cup利用率和网络带宽差异很大,然后就做了ps上变量的负载均衡,负载均衡后,性能提升大约在10%~20%左右,具体不多说,直接上代码...原创 2018-07-23 14:39:12 · 3018 阅读 · 0 评论 -
truncated record at 132658019
具体报错如下:INFO:tensorflow:Error reported to Coordinator: <class 'tensorflow.python.framework.errors_impl.DataLossError'>, truncated record at 132658019 [[Node: parallel_read/ReaderReadV2_2 =...原创 2018-07-24 11:01:29 · 3418 阅读 · 2 评论 -
class 'tensorflow.python.framework.errors_impl.UnavailableError, OS Error
具体报错如下:2018-07-24 16:28:43.875720: E tensorflow/core/distributed_runtime/master.cc:269] Master init: Unavailable: OS ErrorINFO:tensorflow:Error reported to Coordinator: <class 'tensorflow.python...原创 2018-07-24 17:43:48 · 3176 阅读 · 1 评论