使用docker复现顶会论文Autophrase_docker image复现论文-CSDN博客

本文链接：https://blog.csdn.net/Fitz1318/article/details/108627486

复现顶会论文autophrase

使用docker搭建开发环境

我在这里使用的是docker环境，根据作者的readme文件，首先使用命令

docker run -v  /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/data -v  /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/models -it -e RAW_TRAIN=data/input.txt -e ENABLE_POS_TAGGING=1  -e MIN_SUP=30 -e THREAD=10  -e MODEL=models/MyModel -e TEXT_TO_SEG=data/input.txt  remenberl/autophrase

静静等待下载，他是下载好几个文件，完成之后整个环境和程序就搭建好了，可以直接使用

在这里插入图片描述

创建一个容器（AP)

我们使用命令docker images查看当前的镜像，结果如下图。
在这里插入图片描述

我们使用remenberl/autophrase镜像启动一个容器，并命名为AP，参数为以命令行模式进入该容器。在这里我希望docker的服务是在后台运行的，这时可以通过-d指定容器的运行模式。在这里使用的命令是docker run -itd --name AP remenberl/autophrase /bin/bash

使用docker ps命令即可看到当前正在运行的容器。使用docker attach CONTAINER ID,这里具体是使用docker attach 7就可以进入该容器在这里插入图片描述

测试默认的数据集

直接使用命令./auto_phrase.sh,他会首先从作者的数据挖掘小组的服务器上下载英语词组，然后会使用autophrase程序生成三个短语列表，同时也会生成两个细分模型。这些文件都在/default_models/DBLP这个文件夹下，具体包括

AutoPhrase.txt: the unified ranked list for both single-word phrases and multi-word phrases.
AutoPhrase_multi-words.txt: the sub-ranked list for multi-word phrases only.
AutoPhrase_single-word.txt: the sub-ranked list for single-word phrases only.
segmentation.model: AutoPhrase’s segmentation model (saved for later use).
token_mapping.txt: the token mapping file for the tokenizer (saved for later use).

如果需要将自己的一个文件进行短语挖掘也很方便，将/autophrase/default_data/EN/DBLP.5k.txt替换成自己的文件，或者将自己的文件命名成input.txt，之后再运行命令./auto_phrase.sh，稍等片刻，结果就展现在/default_models/DBLP这个文件夹下。

短语突出显示

作者在这里面提供了一个工具，可以将文本中的高质量短语使用高质量短语展示出来，只需要我们使用命令./phrasal_segmentation.sh,结果同样展现在/default_models/DBLP这个文件夹下。这里面作者设置的默认值是单词>0.5，词组>0.8。当然我们可以打开phrasal_segmentation.sh这个文件里面进行修改阈值，来达到我们想要的展示效果