Bigram(双字母组,或称二元组)是一种在自然语言处理和统计语言模型中常用的技术。它是指文本中连续出现的两个字符或两个单词的组合。例如,在句子 “I love coding” 中,“I love” 和 “love coding” 就是两个单词的 Bigram。
Bigram 模型是通过统计文本中所有 Bigram 出现的频率来构建的。在处理任务如语音识别、机器翻译和文本生成时,Bigram 模型可以用来预测下一个单词或字符的出现概率。它通过考虑每对连续单词或字符之间的关系来提高预测的准确性。
虽然 Bigram 模型比基于单个词或字符的 unigram 模型(单字模型)更复杂,但它依然是一种相对简单的语言模型。为了捕捉更复杂的语言依赖关系,可以使用更高阶的 n-gram 模型(如 trigram 三元组)或更先进的深度学习模型。