前言
cs224n第7讲,主要tensorflow进行了入门讲解
tensorflow简介
为什么要用成熟的框架
- 有助于扩展机器学习代码,也就是可以调用成熟代码
- 可以自动计算梯度
- 标准化机器学习应用,便于共享
- 多种算法、理念、抽象、编程语言等的融合
- 提供GPU接口
什么是tensorflow
- 一个使用流式图进行数值计算的开源软件库
- 由Google Brain团队开发的,用于机器学习研究
- 一个描述机器学习算法和实现机器学习算法的接口
编程模型
核心思想:将数值计算表示为图计算
图节点是操作,每个节点有多个输入和一个输出
边是张量,张量即是一个n维数组
如下图所示
第一种节点是
W
W
W和
b
b
b,
W
W
W和
b
b
b是变量,也就是模型需要更新的参数,可以存储。需要注意的是根据定义,
W
W
W和
b
b
b也是操作。
第二种节点
x
x
x是输入,在图中称为占位符–placeholder,在执行过程中才会接受值。不用初始化值,只需要分配数据类型和张量大小。
第三种节点就是图中的MatMul、Add、ReLU,代表矩阵乘法、加法、激活函数。
描述这样的图所使用的代码
import tensorflow as tf
#为方便区分,修改了一些张量大小
b=tf.Variable(tf.zeros((10,))) #b的大小就是10*1 代表分10类
w=tf.Variable(tf.random_uniform((784,10),-1,1)) #w的大小784*10
x=tf.placeholder(tf.float32,(100,784)) # x的大小100*784,表示一次输入100个样本,也就是batch_size是100,每一个样本大小是784*1
h=tf.nn.relu(tf.matmul(x,w)+b) #100*10
运行图
目前只建立了图,没有数据输入,所以不能打印出h的值。运行图需要利用会话–session,将图部署在硬件环境上。
sess.run(fetches,feeds)
fetches是返回节点输出的图形节点列表,这里定义要返回哪个节点,注意:optimizer没有返回值。feeds是一个从placeholder到其输入值的映射字典。
import tensorflow as tf
import numpy as np
b=tf.Variable(tf.zeros((10,)))
w=tf.Variable(tf.random_uniform((784,10),-1,1))
x=tf.placeholder(tf.float32,(100,784)) # x的大小100*784
h=tf.nn.relu(tf.matmul(x,w)+b)
sess=tf.Session() #默认cpu
sess.run(tf.initialize_all_variables()) #初始化所有变量,这里是b和w
sess.run(h,{x:np.random.random(100,784)})
如何训练模型
定义损失
prediction=tf.nn.softmax(...) #模型的输出
label=tf.placeholder(tf.float32,[100,10]) #标签用占位符
cross_entropy=-tf.reduce_sum(label*tf.log(prediction),axis=1)
#reduce_sum表示求和,axis=1或者=0表示按行或者按列求和,这里求和完之后大小是100*1.
计算梯度
train_step=tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
训练模型
sess=tf.Session()
sess.run(tf.initialize_all_variables())
for i in range(1000):
batch_x,batch_label=data.next_batch()
sess.run(train_step,feed_dict={x:batch_x,label:batch_label})
变量共享
在多个GPU上训练同一个模型时,会出现在不同位置出现同一个变量,所以如何在不同位置共享一个变量呢?
with tf.variable_scope("foo"):
v = tf.get_variable("v", shape=[1]) # v.name == "foo/v:0"
with tf.variable_scope("foo", reuse=True):
v1 = tf.get_variable("v") ) # reuse代表是否可以分享变量
with tf.variable_scope("foo", reuse=False): #错误
v1 = tf.get_variable("v")
现场coding
课程中有一部分是现场coding,一个线性模型,一个是word2vec。
tensorflow版本更新的原因,一些指令变化,但是总体思想是一致的。