自然语言处理（NLP）实验——开源工具使用（以srilm为主）

Moonee_

已于 2023-10-20 21:43:45 修改

阅读量627

点赞数

分类专栏：自然语言处理文章标签：自然语言处理人工智能

于 2023-07-18 22:03:21 首次发布

本文链接：https://blog.csdn.net/Moonee_/article/details/131796841

版权

自然语言处理专栏收录该内容

5 篇文章 2 订阅

订阅专栏

本文介绍了如何使用开源工具SRILM进行语言模型分析，包括安装配置、训练三元模型以及使用Katz、Laplace和Kneser-Ney等平滑方法计算困惑度。困惑度是评估模型性能的关键指标，不同的平滑方法和训练数据集的质量都会影响其结果。

摘要由CSDN通过智能技术生成

一、实验内容

使用一些开源工具，分析结果。如：
（1）语言模型工具包srilm：选取各类平滑方法，计算困惑度。如有余力，可使用工具包其他功能。语料：train-austen.txt和test-austen.txt。（这里可以改成其他合适的语料进行测试）
（2）其他：如ChatGPT

二、实验操作

1.语言模型工具包srilm

①安装并配置srilm

从官网下载srilm工具包：
在这里插入图片描述
打开终端，输入指令设置环境变量并检查：

export SRILM=~/srilm（工具包的实际路径）

在这里插入图片描述
安装SRILM工具包的依赖项：

sudo apt-get install g++ make zlib1g-dev

然后cd到工具包解压目录下，输入指令进行编译：

make World

在这里插入图片描述

②利用srilm计算困惑度

编译成功后，将测试数据集“test-austen.txt”和与它相似的训练数据集“train-austen.txt”放到工具包解压目录下。
在终端中输入以下命令训练一个三元语言模型：

bin/i686-m64/ngram-count -text /home/eaibot/srilm/train-austen.txt -order 3 -lm /home/eaibot/srilm/output.lm

这里我先创建了一个保存三元语言模型的输出文件“output.lm”：
在这里插入图片描述
SRILM工具包将在训练语言模型时将模型参数写入输出文件中：

在终端中输入命令计算文本文件“test-austen.txt”的困惑度
在SRILM中，有多种平滑方法可供选择，包括Laplace平滑、Kneser-Ney平滑、Witten-Bell平滑、Katz平滑等。

（1）采用Katz平滑

bin/i686-m64/ngram -lm /home/eaibot/srilm/output.lm -ppl /home/eaibot/srilm/test-austen.txt -debug 2

在这里插入图片描述
1-best解码器是一种简单的解码器，它只考虑每个词的最可能的预测结果，而不考虑其他可能性。因此，ppl1通常比ppl要高。

（2）采用Laplace平滑

	bin/i686-m64/ngram-count -text /home/eaibot/srilm/train-austen.txt -order 3 -lm /home/eaibot/srilm/output1.lm -addsmooth 1

	bin/i686-m64/ngram -lm /home/eaibot/srilm/output1.lm -ppl /home/eaibot/srilm/test-austen.txt -debug 2

在这里插入图片描述

（3）采用Kneser-Ney平滑

	bin/i686-m64/ngram-count -text /home/eaibot/srilm/train-austen.txt -order 3 -lm /home/eaibot/srilm/output2.lm -kndiscount

	bin/i686-m64/ngram -lm /home/eaibot/srilm/output2.lm -ppl /home/eaibot/srilm/test-austen.txt -debug 2

在这里插入图片描述

2.ChatGPT 3.5

ChatGPT选择使用GPT-2模型来计算文本困惑度：
在这里插入图片描述
并提供了代码：

但是GPT-2模型在计算困惑度时需要较长的时间和较大的计算资源，可能需要使用更高性能的计算设备。所以我选择直接提供文件让它帮我算：

三、小结

困惑度是语言模型性能的一个重要指标，它衡量了模型对测试数据集的预测能力。困惑度越低，模型的性能越好。
不同的平滑方法会对语言模型的计算方式产生影响，因此计算出的困惑度也会不同。以下是一些可能导致困惑度差异的因素：

平滑方法的参数：不同的平滑方法可能需要不同的参数设置，例如折扣系数、平滑参数等。这些参数的不同设置可能会影响语言模型的计算方式，从而导致困惑度的差异。
训练数据集的大小和质量：训练数据集的大小和质量也会影响语言模型的性能。如果训练数据集太小或者质量不好，语言模型的性能可能会受到影响，从而导致困惑度的差异。
测试数据集的特点：测试数据集的特点也会影响困惑度的计算结果。例如，如果测试数据集中包含大量未登录词或者生僻词，语言模型的性能可能会受到影响，从而导致困惑度的差异。