摘要
【目的】 本文对国内外已经发表的自然语言处理领域有关文本嵌入的研究进行较深入的分析和对比,详细描述文本嵌入的知识结构和发展脉络,以及针对不同领域、不同数据集的模型改进方法,讨论流行的嵌入模型,比较每个模型在文本嵌入中的优缺点,同时指出文本嵌入所面临的挑战,提出可能的解决方案。【方法】 检索Web of Science 数据库、CNKI 数据库和万方数据,获取国内外文本嵌入研究的相关文献,运用内容分析法对文献做系统梳理分析,对这些文献中利用的文本嵌入技术以及改进方案、建模思想、生成过程等方面进行对比与分析。【结果】 经过去重和合并,保留内容最相关的61篇文献。文本嵌入方法可以归纳为三类:基于频率的文本嵌入、基于神经网络的文本嵌入和基于主题建模的文本嵌入。针对语料库的规模大小、多义词嵌入、通用嵌入的域适应等文本嵌入所面临的挑战,从被调查的研究文章中提出了可能的解决方案。
关键词: 文本嵌入; 自然语言处理; 内容分析法
引言
文本分析是自然语言处理(NLP)的主要任务之一。文本本身是由单词、字符等比较小的单元组成,而计算机或者机器学习模型无法像人类一样阅读和理解文本。因此,文本必须要以计算机可以理解并且可以区分的方式来表示。自然语言处理任务包括文本分类、情感分析、文本聚类和机器翻译, 文本表示的质量对自然语言处理任务的性能有很大影响。
分布式矢量表示或嵌入是自然语言处理的最新成果之一。文本嵌入作为文本表示的一种方法,是将文本投影到向量空间来测量文本之间语义距离的方法。通过低维空间中的某些保留结构的嵌入,可以促进涉及聚类[1-2]和文件检索[3]的文本分析和处理系统的许多领域[4],因为文本的语义结构可能会变得更容易估计。一些广泛使用的文本嵌入方法包括使用术语频率(TF)或逆文本频率(IDF)的方法[5],以及基于主题建模的方法,称为潜在狄利克雷分配(LDA)[6⇓-8]。
另外,目前正在研究使用神经网络嵌入文本的方法。基于神经网络的代表性嵌入方法包括Word-2Vec [9]、Doc2Vec [10]和BERT[11]。Word2Vec预测输入单词的相邻单词,而Doc2Vec预测输入文本中的单词。基于神经网络的方法[12-13]采用了诸如长短期记忆(LSTM)之类的神经网络、卷积神经网络(CNN)和前馈神经网络来提取文本特征,从而生成文本嵌入。这些模型正确地抓住了文本的语义并考虑了单词的顺序,但是它们很难训练[14],并且大多数模型只考虑了局部上下文中单词的第一级共现,并且忽略了主题之类的其他有用的信息。为了克服这些不足,引入了双向语言模型,例如来自转换器的双向编码器表示(BERT),以提高下游任务的性能。
文本表示的方法已经从词嵌入、句子嵌入逐渐发展到了文本嵌入。国内外已经出现了大量的文本嵌入建模方法,但是正如上文列举的,建模的基础模型种类繁多,目前还没有详细的研究针对这些基础建模方法进行分类、对比、梳理。本文对国内外有关文本嵌入的研究进行深入的分析,详细了解文本嵌入技术的知识结构和发展脉络,以及针对不同领域、不同数据集的应用和模型改进方法,通过对比流行的嵌入模型,指出文本嵌入所面临的挑战,提出可能的解决方案。
1 数据来源及方法
为了了解国内外对于文本嵌入研究的进展情况,采用主题词“文本”(document、text)和“嵌入”(embedding)进行预检索。英文数据库选择Web of Science核心合集;中文数据库选择CNKI和万方。最终确定英文检索式:标题: (“document embedding*”OR “text embedding*”),文献类型限定article、proceedings paper、review;中文检索式:(主题:“文本嵌入” OR “文档嵌入”),通过初步判断,通常学位论文的观点会以论著的形式发表在学术期刊上,因此,文献类型限定为研究论文。
Web of Science核心合集检索结果为106条。通过浏览研究内容,去除不相关的内容,最后保留相关研究44条。英文数据库检索日期是2021年12月13日。CNKI数据库检索结果是97条学术期刊论文,万方数据库检索结果是43条,选择核心期刊论文以后缩小范围到19条,然后,将两个中文数据库的结果合并去重。中文数据库检索日期是2021年12月13日。
对三个数据库检索到的结果进行逐一判读,排除文学写作、文本水印嵌入、文本加密、系统设计与开发方面的研究,只留下与文本分类、聚类、文本分析、相似度计算、文本处理有关的嵌入任务的论文。运用内容分析法对文献作系统梳理分析,保留内容最相关的文献,最终得到61篇。
为了定性分析,设计了两个表格:第一个描述61篇文献里有关文本嵌入研究的基本模型、改进方法以及目的和贡献;另一个表格将文献里所描述的文本嵌入方法进行归类,分别描述每一类的优缺点。
2 文本嵌入知识结构和进展分析
经过阅读梳理每项研究的贡献、用途以及对模型的改进方法,归类汇总不同嵌入模型下的应用,以及针对不同研究目的对算法模型的改进措施,见表1。根据文献的研究内容,将论文里面提出的关于文本嵌入的方法归纳为三类:基于频率的文本嵌入、基于神经网络的文本嵌入和基于主题建模的文本嵌入,见表2。下面将做详细的分析和对比。
表1 61篇文本嵌入研究论文应用模型以及贡献
Table 1 Application models and contributions of 61 text embedding research papers
基础模型 |
改进模型 |
应用 |
改进效果 |
BOW |
1.基于词袋的支持向量机(BOW-SVM); |
社会风险分类; |
1. BOW-SVM模型与仅使用文档嵌入相比,AUC和f1-score值最高,分 |
TF-IDF |
1.多协同训练(MCT); |
文档分类; |
1. MCT增强了传统SSL方法的分类性能。NB分类器的性能提升更为明显[17] |
Word2vec(Skip-gram,PV-DBOW ) |
1.使用具有多个判别分析(multiple discri-minant analysis,MDA); |
情感分类; |
1. 判别式文档嵌入的准确性提高了 21%[19]; |
Doc2Vec |
1. 基于负采样的域适应的单词和文档的分布式表示学习方法; |
解决了来自不同域的文档嵌入的域分离问题; |