论文《基于类别的n元语法模型在自然语言中的应用》主要探讨了如何预测文本样本中单词序列的问题,特别是基于单词类别的n-gram模型。论文作者是由来自IBM T.J. Watson研究中心的Peter F. Brown, Peter V. deSouza, Robert L. Mercer。
在当前AI大模型充斥全网的第三次产业升级浪潮前夕,大模型微调作为适应不同场景的调整方式,深受算法从业人员的重点关注。
-
引言:
- 文章阐述了在自然语言处理任务中恢复被噪声信道破坏的英文单词序列的问题。
- 成功解决这一问题需要估计特定英语单词串作为噪声信道输入的概率。
- 论文讨论了一种用于此类概率估计的方法,并探讨了根据大量文本中的统计行为将单词分配到类别中的相关主题。
-
语言模型与n-gram模型:
- 对语言模型的概念进行了回顾,并定义了n-gram模型。
- 探讨了单词被分为类别的n-gram模型子集,并展示了当n等于2时,单词最大似然分类等同于使相邻类别平均互信息最大的分类。
-
算法:
- 找到单词最优分类是计算上困难的,但作者提出了两种找到次优分类的算法。
-
词类聚类:
- 应用互信息来寻找词对,这些词对作为一个单独的词汇实体一起工作。
- 通过检查两个词在合理距离内出现的概率,使用互信息来发现具有某种松散语义一致性的类别。
-
实验结果:
- 使用提出的算法将包含260,741个单词的词汇表划分为1,000个类别,展示了一些特别有趣和随机选择的类别示例。
- 通过分析不同频率下出现的1-gram,2-gram和3-gram类的数量,表明基于类别的模型相比于纯3-gram模型,在存储需求方面有显著减少,尽管在模型精度上有一定的牺牲。
-
讨论:
- 强调了简单统计技术在揭示语言结构方面的价值,但同时也指出目前还没有完全展示出这些发现的全部价值。
- 作者相信,通过他们描述的这类类别,最终能够对3-gram语言模型做出重大改进。