简单记录以下keras的自定义层的设置:
主要是三个方法的定义,以我自己的代码为例吧!
首先定义一个类,这个类继承了Keras.engine.topology.Layer
。
1.首先是一些必要参数的初始化,这些参数的初始化写在def __init__(self,)
中,然后是一些参数的初始化,记得最后要继承Layer中的一些初始化参数。
2.这部分主要是编写一些要更新的参数def build(self,)
,如权重等,可以使用 类似self.kernel = self.add_weight(name = '....',shape = [],initializer = 'uniform',trainable = True)
的方法来定义一些需要更新的参数变量,也可以使用self.kernel = tf.get_variable
和tf.Variable()
等来定义需要更新的参数变量。
3.最重要的是def call(self,)
,这部分代码包含了主要代码的实现,前面两个只是定义了一些初始化的参数以及一些需要更新的参数变量,而真正实现LayerNorm类的作用是在call方法中。可以看到call中的一系列操作是对__init__
和build
中变量参数的应用。
4.还有一个方法在小编的代码里面没有用到就是compute_output_shape(input_shape)
,这个方法的主要作用是如果你的层更改了输入张量的形状,你应该在这里定义形状变化的逻辑,这让Keras能够自动推断各层的形状。显然,在小编需要自定义的LayerNorm中的input_shape和output_shape 是相等的,只是经过了一个norm的过程,并不改变shape。
下面是小编参照Keras中文文档编写的一个LayerNorm,读者可以对比官方文档和这个代码进行自己代码的改写。
import keras.backend as K
import tensorflow as tf
from keras.engine.topology import Layer
import numpy as np
class LayerNorm(Layer):
def __init__(self,dims,axis = -1,offset = True,scale = True,eps = 1e-6,dtype = tf.float32,scope = None,**kwargs):
self.offset = offset
self.dims = dims
self.scale = scale
self.dtype = dtype
self.axis = axis
self.eps = eps
super(LayerNorm,self).__init__(**kwargs) ## 继承Layer中的初始化参数
def build(self,input_shape):
## create a trainable weight variable for this layer
self.offset_var = 0
if self.offset:
## 这里的name参数是不可缺的,但是如果name的字符串是固定的,代码会报错,原来的tensorflow的代码中的name是获得该节点##的名字,但是在keras里面直接获取节点的名字不太方便,所以这里就直接使用默认的参数,name = self.name + '_offset'了
self.offset_var = tf.get_variable(self.name + 'offset',shape = [self.dims],initializer = tf.zeros_initializer(),dtype = self.dtype)
scale_var = 1
if self.scale:
self.scale_var = tf.get_variable(self.name + '_scale',shape = [self.dims],initializer = tf.zeros_initializer(),dtype = self.dtype)
# self.kernel = self.add_weight(name = 'kernel',
# shape = (input_shape[1],self.output_dim),
# initializer = 'uniform'
# trainable = True
# )
super(LayerNorm,self).build(input_shape)
def call(self,x):
mean = tf.reduce_mean(x,axis = self.axis,keep_dims = True)
inverse_stddev = tf.rsqrt(tf.reduce_mean(tf.square(x - mean),axis = self.axis,keep_dims = True) + self.eps)
normed = (x - mean) * inverse_stddev
return normed * self.scale_var + self.offset_var
我们可以检验一下:
import keras
from keras.layers import Input
from keras.models import Sequential,Model
filters = 128
inputs = Input(shape = (128,1))
output = LayerNorm(dims = filters)(inputs)
model = Model(input = inputs,output = output)
model.summary()
得到的结果是这样的: