这个系列主要摘自《Tensorflow实战Google深度学习框架》这本书,边学习边整理其中主要内容,以便记忆。
Tensorflow系列一:环境搭建
一 Tensorflow的主要依赖包
1. Protocol Buffer
Protocol Buffer是谷歌开发的处理结构化数据的工具。这里结构化数据指的是拥有多种属性的数据。假设用户信息包括名字,ID和Email地址。
一个用户的信息表示示例 |
---|
name:张三 |
id: 12345 |
email: zhangsan@abc.com |
当要将结构化数据数据持久化或进行网络传输时,需要先将它序列化(将结构化数据变成数据流的格式,简单地说就是变为一个字符串)。如何将结构化数据序列化,并从序列化数据流中还原结构化数据,称为处理结构化数据。
XML和JSON是两种常用的结构化数据处理工具。
<!-- xml格式示例 -->
<user>
<name>张三</name>
<id>12345</id>
<email>zhangsan@abc.com</email>
</user>
//JSON格式示例
{
"name":"张三",
"id":"12345",
"email":"zhangsan@abc.com",
}
不同于XML和JSON,Protocol Buffer序列化后得到的数据不是可读的字符串威视二进制流。再者Protocol Buffer需要先定义数据的格式(schema)再还原结构化数据。(Protocol Buffer序列化的数据比XML格式数据小3到10倍,解析时间要快20到100倍)。
//Protocol Buffer数据格式定义示例
message user{
optional string name = 1;//optional,取值可为空
required int32 id = 2;//required,每个message实例必须包含该属性
repeated string email = 3;//repeated,属性取值可以是一个列表
}
2. Bazel
Bazel是从谷歌开源的自动化构建工具,用于编译应用。
项目空间(worksapce): Bazel的基本概念,包含了编译一个软件所需要的源代码以及输出编译结果的软连接(symbolic link)地址。项目空间对应的文件夹是项目的根目录,需要有:
WORKSPACE文件:定义了对外部资源的依赖关系,可为空文件;
BULID文件:通过它找到需要编译的目标,该文件中指定可每一个编译目标的输入,输出和编译方式。Bazel的编译方式是事先定义好的,比如Python支持的编译方式只有三种:py_binary(将Python程序编译为可执行文件), py_library(将Python编译为库函数供供py_test或py_binary调用)和py_test(编译Python测试程序)。
下面使用一个简单样例来说明Bazel的工作,如下项目空间有4个文件:
-rw-rw-r-- root root 208 BULID
-rw-rw-r-- root root 48 hello_lib.py
-rw-rw-r-- root root 47 hell0_main.py
-rw-rw-r-- root root 0 WORKSPACE
#详细内容如下:
#hellp_lib.py
def print_hello_world():
print("Hello World")
#hello_main.py