使用docker复现顶会论文Autophrase

复现顶会论文autophrase

使用docker搭建开发环境

我在这里使用的是docker环境,根据作者的readme文件,首先使用命令

docker run -v  /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/data -v  /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/models -it -e RAW_TRAIN=data/input.txt -e ENABLE_POS_TAGGING=1  -e MIN_SUP=30 -e THREAD=10  -e MODEL=models/MyModel -e TEXT_TO_SEG=data/input.txt  remenberl/autophrase

静静等待下载,他是下载好几个文件,完成之后整个环境和程序就搭建好了,可以直接使用

在这里插入图片描述

创建一个容器(AP)

我们使用命令docker images查看当前的镜像,结果如下图。
在这里插入图片描述

我们使用remenberl/autophrase镜像启动一个容器,并命名为AP,参数为以命令行模式进入该容器。在这里我希望docker的服务是在后台运行的,这时可以通过-d指定容器的运行模式。在这里使用的命令是docker run -itd --name AP remenberl/autophrase /bin/bash

使用docker ps命令即可看到当前正在运行的容器。使用docker attach CONTAINER ID,这里具体是使用docker attach 7就可以进入该容器在这里插入图片描述

测试默认的数据集

直接使用命令./auto_phrase.sh,他会首先从作者的数据挖掘小组的服务器上下载英语词组,然后会使用autophrase程序生成三个短语列表,同时也会生成两个细分模型。这些文件都在/default_models/DBLP这个文件夹下,具体包括

  • AutoPhrase.txt: the unified ranked list for both single-word phrases and multi-word phrases.
  • AutoPhrase_multi-words.txt: the sub-ranked list for multi-word phrases only.
  • AutoPhrase_single-word.txt: the sub-ranked list for single-word phrases only.
  • segmentation.model: AutoPhrase’s segmentation model (saved for later use).
  • token_mapping.txt: the token mapping file for the tokenizer (saved for later use).
    在这里插入图片描述

如果需要将自己的一个文件进行短语挖掘也很方便,将/autophrase/default_data/EN/DBLP.5k.txt替换成自己的文件,或者将自己的文件命名成input.txt,之后再运行命令./auto_phrase.sh,稍等片刻,结果就展现在/default_models/DBLP这个文件夹下。

短语突出显示

作者在这里面提供了一个工具,可以将文本中的高质量短语使用 高质量短语展示出来,只需要我们使用命令./phrasal_segmentation.sh,结果同样展现在/default_models/DBLP这个文件夹下。这里面作者设置的默认值是单词>0.5,词组>0.8。当然我们可以打开phrasal_segmentation.sh这个文件里面进行修改阈值,来达到我们想要的展示效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值