TensorFlow-7-TensorBoard Embedding可视化

原创 2017年05月02日 11:21:03

学习资料
https://www.tensorflow.org/get_started/summaries_and_tensorboard

今天来看 TensorBoard 的一个内置的可视化工具 Embedding Projector, 是个交互式的可视化,可用来分析诸如 embeddings 的高维数据。
embedding projector 将从你的 checkpoint 文件中读取 embeddings。
默认情况下,embedding projector 会用 PCA 主成分分析方法将高维数据投影到 3D 空间, 还有一种投影方法是 T-SNE。

主要就是通过3步来实现这个可视化:

1) Setup a 2D tensor that holds your embedding(s).

embedding_var = tf.Variable(....)

2) Periodically save your model variables in a checkpoint in LOG_DIR.

saver = tf.train.Saver()
saver.save(session, os.path.join(LOG_DIR, "model.ckpt"), step)

3) (Optional) Associate metadata with your embedding.


本节官方教程没有给出完整的例子,这里用 MNIST 举一个简单的例子。

1. 引入 projector,data,定义 path:

%matplotlib inline
import matplotlib.pyplot as plt
import tensorflow as tf
import numpy as np
import os

from tensorflow.contrib.tensorboard.plugins import projector
from tensorflow.examples.tutorials.mnist import input_data

LOG_DIR = 'minimalsample'
NAME_TO_VISUALISE_VARIABLE = "mnistembedding"
TO_EMBED_COUNT = 500


path_for_mnist_sprites =  os.path.join(LOG_DIR,'mnistdigits.png')
path_for_mnist_metadata =  os.path.join(LOG_DIR,'metadata.tsv')

mnist = input_data.read_data_sets("MNIST_data/", one_hot=False)
batch_xs, batch_ys = mnist.train.next_batch(TO_EMBED_COUNT)

2. 建立 embeddings,也就是前面的第一步,最主要的就是你要知道想可视化查看的 variable 的名字:

embedding_var = tf.Variable(batch_xs, name=NAME_TO_VISUALISE_VARIABLE)
summary_writer = tf.summary.FileWriter(LOG_DIR)

3. 建立 embedding projectorc:
这一步很重要,要指定想要可视化的 variable,metadata 文件的位置

config = projector.ProjectorConfig()
embedding = config.embeddings.add()
embedding.tensor_name = embedding_var.name

# Specify where you find the metadata
embedding.metadata_path = path_for_mnist_metadata #'metadata.tsv'

# Specify where you find the sprite (we will create this later)
embedding.sprite.image_path = path_for_mnist_sprites #'mnistdigits.png'
embedding.sprite.single_image_dim.extend([28,28])

# Say that you want to visualise the embeddings
projector.visualize_embeddings(summary_writer, config)

4. 保存,即上面第二步:
Tensorboard 会从保存的图形中加载保存的变量,所以初始化 session 和变量,并将其保存在 logdir 中,

sess = tf.InteractiveSession()
sess.run(tf.global_variables_initializer())
saver = tf.train.Saver()
saver.save(sess, os.path.join(LOG_DIR, "model.ckpt"), 1)

5. 定义 helper functions:

  • **create_sprite_image:** 将 sprits 整齐地对齐在方形画布上
  • **vector_to_matrix_mnist:** 将 MNIST 的 vector 数据形式转化为 images
  • **invert_grayscale: **将黑背景变为白背景
def create_sprite_image(images):
    """Returns a sprite image consisting of images passed as argument. Images should be count x width x height"""
    if isinstance(images, list):
        images = np.array(images)
    img_h = images.shape[1]
    img_w = images.shape[2]
    n_plots = int(np.ceil(np.sqrt(images.shape[0])))


    spriteimage = np.ones((img_h * n_plots ,img_w * n_plots ))

    for i in range(n_plots):
        for j in range(n_plots):
            this_filter = i * n_plots + j
            if this_filter < images.shape[0]:
                this_img = images[this_filter]
                spriteimage[i * img_h:(i + 1) * img_h,
                  j * img_w:(j + 1) * img_w] = this_img

    return spriteimage

def vector_to_matrix_mnist(mnist_digits):
    """Reshapes normal mnist digit (batch,28*28) to matrix (batch,28,28)"""
    return np.reshape(mnist_digits,(-1,28,28))

def invert_grayscale(mnist_digits):
    """ Makes black white, and white black """
    return 1-mnist_digits

6. 保存 sprite image:
将 vector 转换为 images,反转灰度,并创建并保存 sprite image。

to_visualise = batch_xs
to_visualise = vector_to_matrix_mnist(to_visualise)
to_visualise = invert_grayscale(to_visualise)

sprite_image = create_sprite_image(to_visualise)

plt.imsave(path_for_mnist_sprites,sprite_image,cmap='gray')
plt.imshow(sprite_image,cmap='gray')

7. 保存 metadata:
将数据写入 metadata,因为如果想在可视化时看到不同数字用不同颜色表示,需要知道每个 image 的标签,在这个 metadata 文件中有这样两列:”Index” , “Label”

with open(path_for_mnist_metadata,'w') as f:
    f.write("Index\tLabel\n")
    for index,label in enumerate(batch_ys):
        f.write("%d\t%d\n" % (index,label))

8. 执行:
我是用 jupyter notebook 写的,执行前面的代码后,会在当前 ipynb 所在文件夹下生成一个 minimalsample 文件夹,

要打开 tensorboard ,需要在终端执行:

$ tensorboard --logdir=YOUR FOLDER/minimalsample

9. 然后在 embeddings 中可以看到图了:

如果提示了 metadata.tsv is not a file 这个错误,
那么,去 minimalsample 文件夹下会找到一个 projector_config.pbtxt 文件,把里面的 metadata_path: 和 image_path: 改为你的 metadata.tsv 和 mnistdigits.png 所在的绝对路径。

参考:
https://www.pinchofintelligence.com/simple-introduction-to-tensorboard-embedding-visualisation/


推荐阅读
历史技术博文链接汇总
也许可以找到你想要的

版权声明:本文为博主原创文章,未经博主允许不得转载。

06:Tensorflow的可视化工具Tensorboard的初步使用

标签(空格分隔): 王小草Tensorflow笔记笔记整理者:王小草 笔记整理时间:2017年3月7日 代码原文请见github:当使用Tensorflow训练大量深层的神经网络时,我们希望去跟踪...
  • sinat_33761963
  • sinat_33761963
  • 2017年03月16日 18:45
  • 17340

[TensorFlow]使用Tensorboard实现神经网络可视化

可视化是深度学习神经网络开发、调试、应用中极为重要的手段。Tensorboard是Tensorflow提供的一个可视化工具,本文通过实际代码实验的方式说明使用TensorBoard实现记录变量,实现可...
  • wangyao_bupt
  • wangyao_bupt
  • 2017年04月22日 11:50
  • 3693

【TensorFlow】Windows10 64 位下安装 TensorFlow - 官方原生支持

之前 写过一篇在 ubuntu 下安装 TensorFlow 的教程,那个时候 TensorFlow 官方还不支持 Windows 系统,虽然可以通过其他方法安装,但是终究不是原生的,而且安装过程繁琐...
  • u010099080
  • u010099080
  • 2016年12月01日 09:11
  • 115733

Tensorflow一些常用基本概念与函数(1)

摘要:本文主要对tf的一些常用概念与方法进行描述。
  • lenbow
  • lenbow
  • 2016年08月08日 16:00
  • 72098

TensorFlow学习笔记(一)

最近致力于深度学习,希望在移动领域能够找出更多的应用点.其中TensorFlow作为目前的一个热点值得我们重点关注....
  • dd864140130
  • dd864140130
  • 2017年05月12日 23:15
  • 13140

TensorFlow 教程 - 新手入门笔记

介绍TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构)的研...
  • Toormi
  • Toormi
  • 2016年12月13日 14:21
  • 45457

神经网络在关系抽取中的应用

一、关系抽取简介 信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring),关系抽取是其重要的子任务,主要负责从文本中识别出实体(Entities),抽取实...
  • sparkexpert
  • sparkexpert
  • 2017年05月27日 22:59
  • 4320

TensorFlow入门教程集合

TensorFlow初级教程.网络资源转载、整合、汇总。
  • jdbc
  • jdbc
  • 2016年09月01日 18:07
  • 42659

Tensorflow实例:利用LSTM预测股票每日最高价(一)

RNN与LSTM这一部分主要涉及循环神经网络的理论,讲的可能会比较简略。什么是RNNRNN全称循环神经网络(Recurrent Neural Networks),是用来处理序列数据的。在传统的神经网络...
  • mylove0414
  • mylove0414
  • 2017年02月19日 17:28
  • 40252

Google TensorFlow 机器学习框架介绍和使用

TensorFlow是什么? TensorFlow是Google开源的第二代用于数字计算(numerical computation)的软件库。它是基于数据流图的处理框架,图中的节点表示数学运算(ma...
  • sinat_31628525
  • sinat_31628525
  • 2015年12月15日 21:23
  • 15915
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:TensorFlow-7-TensorBoard Embedding可视化
举报原因:
原因补充:

(最多只允许输入30个字)