自动文本摘要
清川先生
上海交大计算机博士在读,博客已迁移到:https://www.zhihu.com/people/liu-ji-27-94
展开
-
ROUGE与PyROUGE的安装:虚拟机上从头再来
1 写在前面上一篇文章:ROUGE与PyROUGE的安装:非root权限的尝试与失败,烂尾了。由于没有服务器的root权限,最终也没能成功。但我是不会就这样放弃的,经老师建议,我可以在本地安装虚拟机,在虚拟机中使用ROUGE评价模型。我使用的软件是VMware Workstation Pro。还记得大一的暑假参加科技夏令营的时候,我们学习在服务器上部署LNMP框架,搭建WordPress的博客...原创 2019-12-11 20:44:37 · 735 阅读 · 2 评论 -
ROUGE与PyROUGE的安装:非root权限的尝试与失败
1 ROUGE的安装过程主要参考了这篇博客:Ubuntu安装配置ROUGE1.1 普通用户的权限问题网上给出的教程大都是使用Root权限安装的,无论是yum install还是apt-get都是无法在普通用户权限下使用的。下面先给大家讲述我在普通用户权限下为安装ROUGE做的一些失败的尝试,请大家切勿模仿,我也不会给出十分详细的过程。成功的教程请看下一节。首先,安装ROUGE需要用到Per...原创 2019-12-11 20:21:42 · 958 阅读 · 0 评论 -
自动文本摘要经典模型TextSum运行录(五):平均损失不下降
1 实验现象1.1 模型将显存占满在成功使用显卡运行Textsum模型后,首先发现模型耗用了显存10GB,而GPU利用率却只有25%左右。这是因为我们使用的数据集CNN的单篇篇幅较长,分批次训练时,将一批数据加载入显存,所以占用较高,实际上耗用的计算资源却不多。当然这也可能和模型的框架陈旧,效率较低有关。虽说如此,从训练速度上看,global step从原来的0.6提升到了2.5以上,速度提高...原创 2019-12-11 19:16:17 · 347 阅读 · 0 评论 -
自动文本摘要经典模型TextSum运行录(四):显卡环境
1 反思环境错误之前的bazel编译命令中如果加入cuda参数--config=cuda,那么会报以下的错误:Starting local Bazel server and connecting to it...INFO: Options provided by the client: Inherited 'common' options: --isatty=1 --terminal_c...原创 2019-12-11 18:59:09 · 554 阅读 · 0 评论 -
自动文本摘要经典模型TextSum运行录(三):继续战斗
这篇文章是Textsum数据处理的续篇,主要记录了再次实验中遇到的问题,以及对实验的不断改进和完善的过程。1 再次运行模型由于词频统计脚本实在是太慢了,在它统计完三分之一,即约三万条数据的时候,我决定开始重新运行模型。我们将处理好的9w条CNN数据,取前34600条作为训练样本,生成新的文件。将其拷贝到Textsum工作空间下的data/下,重命名为data。同时将对应的story.vocab...原创 2019-12-11 18:53:58 · 388 阅读 · 0 评论 -
自动文本摘要经典模型TextSum运行录(二):数据处理
Textsum模型在toy dataset上的运行过程参见上一篇博文:Textsum运行录为了进行更深入的实验,我们需要使用更大更有效的数据集,同时也需要将其他格式的原始数据集转换成Textsum模型可以读入的格式。这里我准备使用CNN新闻数据。我没有使用surmenok的数据转换代码(他那份代码实在是太长太难懂了),而是自己编写了一套工具。主要分为两个方面,一个是data数据集的构造,一个是v...原创 2019-12-11 17:34:11 · 683 阅读 · 0 评论 -
自动文本摘要经典模型TextSum运行录(一):开始尝试
1 研究背景最近的研究课题是自然语言处理领域的自动文本摘要。文本摘要按照方法不同可以分为两大类别,即生成式摘要与抽取式摘要,我所研究的方向以生成式摘要为主。抽取式摘要主要分析原文中句子的关键性,从原文中抽取并进行合理连接得到摘要。这种方法可以直接运用统计方式,发展现状较好,在Word中也早有插件应用。生成式摘要主要使用序列到序列的神经网络模型,使用原文和摘要的语料对进行训练,最终可以给定文本输入...原创 2019-12-11 20:45:45 · 991 阅读 · 1 评论