基于CNN和序列标注的对联机器人 | 附数据集 & 开源代码

最新推荐文章于 2024-08-18 10:41:22 发布

PaperWeekly

最新推荐文章于 2024-08-18 10:41:22 发布

阅读量2.2k

点赞数

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/86581677

版权

640

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

缘起

前几天看到了这个脑洞清奇的对联AI，大家都玩疯了一文，觉得挺有意思，难得的是作者还整理并公开了数据集，所以决定自己尝试一下。

动手

“对对联”，我们可以看成是一个句子生成任务，可以用 Seq2Seq 完成，跟我之前写的玩转Keras之Seq2Seq自动生成标题一样，稍微修改一下输入即可。上面提到的文章所用的方法也是 Seq2Seq，可见这算是标准做法了。

分析

然而，我们再细想一下就会发现，相对于一般的句子生成任务，“对对联”有规律得多：1）上联和下联的字数一样；2）上联和下联的每一个字几乎都有对应关系。

如此一来，其实对对联可以直接看成一个序列标注任务，跟分词、命名实体识别等一样的做法即可。这便是本文的出发点。

说到这，其实本文就没有什么技术含量了，序列标注已经是再普通不过的任务了，远比一般的 Seq2Seq 来得简单。

所谓序列标注，就是指输入一个向量序列，然后输出另外一个通常长度的向量序列，最后对这个序列的“每一帧”进行分类。相关概念来可以在简明条件随机场CRF介绍 | 附带纯Keras实现一文进一步了解。

模型

本文直接边写代码边介绍模型。如果需要进一步了解背后的基础知识的读者，还可以参考《中文分词系列：基于双向LSTM的Seq2Seq字标注》[1]、《中文分词系列：基于全卷积网络的中文分词》[2]、《基于CNN和VAE的作诗机器人：随机成诗》[3]。

我们所用的模型代码如下：

x_in = Input(shape=(None,))
x = x_in
x = Embedding(len(chars)+1, char_size)(x)
x = Dropout(0.25)(x)

x = gated_resnet(x)
x = gated_resnet(x)
x = gated_resnet(x)
x = gated_resnet(x)
x = gated_resnet(x)
x = gated_resnet(x)

x = Dense(len(chars)+1, activation='softmax')(x)

model = Model(x_in, x)
model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam')

其中 gated_resnet 是我定义的门卷积模块：

def gated_resnet(x, ksize=3):
    # 门卷积 + 残差
    x_dim = K.int_shape(x)[-1]
    xo = Conv1D(x_dim*2, ksize, padding='same')(x)
    return Lambda(lambda x: x[0] * K.sigmoid(x[1][..., :x_dim]) \
                            + x[1][..., x_dim:] * K.sigmoid(-x[1][..., :x_dim]))([x, xo])