歌词生成（一）-SongNet简述

行者AI

于 2020-12-11 11:12:19 发布

阅读量2k

点赞数 4

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/suiyuejian/article/details/111030376

版权

SongNet是基于BERT的改进模型，用于解决歌词生成的字数可控和押韵问题。它通过将格式信息embedding并利用Mask策略，使BERT具备生成能力，实现了条件文本生成。SongNet的关键特性包括Format and Rhyme Embeddings、Intra-Position Embeddings和Segment Embeddings，这些embedding方法增强了模型对歌词格式的理解和生成效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

歌词生成相较于普通文本生成，需要配合特定的乐曲，并演唱。因而要求，每句歌词演唱的长度正好合拍，即不同曲子，每句歌词的字符个数是要受限制于乐曲。

本文暂不考虑曲配词问题，只是将问题抽象为，在已知歌词每句的字数时，如何生成一个文本，满足字数格式。歌词的押韵没有古诗那么严格，但押韵的歌词朗朗上口，更易演唱，对于歌词生成还是很重要的。总之，歌词生成应当满足两个条件：

(1) 每句的字数可控
(2) 押韵

针对上述两个问题，发表在ACL2020的《Rigid Formats Controlled Text Generation》【1】，可以很好地解决字数可控和押韵问题。该论文将其模型称为SongNet。既可以读作“宋（词）Net”（论文本身是为了生成宋词），又可以读作“Song Net”(歌词网络)，一语双关。

1. SongNet简述

SongNet是基于BERT【2】做的改进。相较于BERT，SongNet有如下不同：

将格式信息embedding，输入到模型

通过mask使得BERT具有生成能力

接下来首先介绍，SongNet所属的领域：条件文本生成。

2. 条件文本生成

文本生成领域分为三个部分，自由文本生成（Generic / Free-Text Generation ）、条件文本生成（Conditional Text Generation）以及受约束的文本生成（Constrained Text Generation），条件文本生成和受约束的文本生成两者并没有明确的界限，该文将文本生成领域看做两个部分自由文本生成和条件文本生成。【3】

自由文本生成是，没有显式地给出条件的文本生成任务，即只要不是条件文本生成，便是自由文本生成任务。其概率公式如下，

相较于条件文本生成，自由文本生成，只是去建模文本的一个前后依赖。