百度推出飞桨(PaddlePaddle)后,不少开发者开始转向国内的深度学习框架。但是从代码的转移谈何容易,之前的工作重写一遍不太现实,成千上万行代码的手工转换等于是在做一次二次开发。
现在,有个好消息:无论Caffe、TensorFlow、ONNX都可以轻松迁移到飞桨平台上。虽然目前还不直接迁移PyTorch模型,但PyTorch本身支持导出为ONNX模型,等于间接对该平台提供了支持。
然而,有人还对存在疑惑:不同框架之间的API有没有差异?整个迁移过程如何操作,步骤复杂吗?迁移后如何保证精度的损失在可接受的范围内?
大家会考虑很多问题,而问题再多,归纳一下,无外乎以下几点:
1.API差异:模型的实现方式如何迁移,不同框架之间的API有没有差异?如何避免这些差异带来的模型效果的差异?
2.模型文件差异:训练好的模型文件如何迁移?转换框架后如何保证精度的损失在可接受的范围内?
3.预测方式差异:转换后的模型如何预测?预测的效果与转换前的模型差异如何?
飞桨开发了一个新的功能模块,叫X2Paddle(Github见参考1),可以支持主流深度学习框架模型转换至飞桨,包括Caffe、Tensorflow、onnx等模型直接转换为Paddle Fluid可加载的预测模型,并且还提供了这三大主流框架间的API差异比较,方便我们在自己直接复现模型时对比API之间的差异,深入理解API的实现方式从而降低模型迁移带来的损失。
下面以TensorFlow转换成Paddle Fluid模型为例,详细讲讲如何实现模型的迁移。
TensorFlow-Fluid 的API差异
在深度学习入门过程中,大家常见的就是手写数字识别这个demo,下面是一份最简单的实现手写数字识别的代码:
from tensorflow.examples.tutorials.mnist import input_dataimport tensorflow as tfmnist = input_data.read_data_sets("MNIST_data/", one_hot=True)x = tf.placeholder(tf.float32, [None, 784]) W = tf.Variable(tf.zeros([784, 10]))b = tf.Variable(tf.zeros([10]))y = tf.nn.softmax(tf.matmul(x, W) + b)y_ = tf.placeholder("float", [None, 10])cross_entropy = tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(logits = y,labels = y_))train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)init = tf.global_variables_initializer()sess = tf.Session()sess.run(init)for i in range(1, 1000): batch_xs, batch_ys = mnist.train.next_batch(100) sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))accuracy = tf.reduce_mean(tf.cast(correct_prediction, 'float'))print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))import input_data
import tensorflow as tf
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
x = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.nn.softmax(tf.matmul(x, W) + b)
y_ = tf.placeholder("float", [None, 10])
cross_entropy = tf.reduce_sum(tf.nn.softmax_cross_entropy_with_logits(logits = y,labels = y_))
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
for i in range(1, 1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, 'float'))
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))
大家看这段代码里,第一步是导入mnist数据集,然后设置了一个占位符x来表示输入的图片数据,再设置两个变量w和b,分别表示权重和偏置来计算,最后通过softmax计算得到输出的y值,而我们真实的label则是变量y_ 。
前向传播完成后,就可以计算预测值y与label y_之间的交叉熵。
再选择合适的优化函数,此处为梯度下降,最后启动一个Session,把数据按batch灌进去,计算acc即可得到准确率。
这是一段非常简单的代码,如果我们想把这段代码变成飞桨的代码,有人可能会认为非常麻烦,每一个实现的API还要一一去找对应的实现方式,但是这里,我可以告诉大家,不!用!这!么!麻!烦!因为在X2Paddle里有一份常用的Tensorflow对应Fluid的API表,(https://github.com/PaddlePaddle/X2Paddle/tree/master/tensorflow2fluid/doc),如下所示: