sumy, textsum和fairsqe

文章目录
  1. 1.sumy
  2. 2.Google textsum
  3. 3.Fairseq
欢迎转载,请支持原创,保留原文 链接:http://blog.ilibrary.me

前端时间做了一点点机器摘要和机器翻译的工作,现在记录下来,回头可以参考。

机器摘要用了sumy,做了一些简单的二次开发工作。 然后花了一个多星期研究了一下抽相式摘要生成算法google’s textsum algorithm,同时还做了一个支线任务:研究facebook的机器翻译工具fairseq

总体上来讲,机器摘要和人工摘要肯定还是有不小的差距。机器翻译也一样,有些翻译的结果需要人工后期矫正才好用。

从我们项目实践来看,机器摘要和机器翻译还是会省一些人工成本的。

接下来记录一下三件工作的细节和体会。

sumy

Sumy 是一个比较成熟的摘要算法库,开源免费的。它提供命令行工具,同时也提供python接口. 使用方法比较简单,不详细列举。

从我们使用的效果来看,它自带的算法里面Luhn, LexRank和TextRank这三者效果最好。

Sumy的不足之处在于好像自己想改进其算法的话难度挺大。没有说明文档,没有提供接口做参数调整。它的github页面有提供几份papers的链接. 做为一个天天赶进度的人,你让我读paper?

因为Sumy使用简单,集成方便,所以我们项目最后决定从Sumy入手。

Google textsum

这是一个利用了深度学习技术的机器摘要算法。从它的github首页的描述来看,确实效果挺好的。不过从另外一篇博客的评论来看,问题也不少。

怎么跑这个算法?

跑这个算法比较简单,按照他的页面说明就可以了。有几点需要注意的地方:

  1. 作者本身用了一个很专业的语料库Annotated English Gigaword,这个库需要$6000授权费。如果没有语料库授权,你可以用作者提供的toy dataset来跑,记得自己把他提供的data文件重命名为training-*, validation- 和test-*来分别跑训练,验证和摘要生成。那条decode命令就是用来生成摘要的。
  2. 这篇博客有介绍怎么准备CNN语料库和dailymail语料库。虽然比不上Gigaword,但是也比toy data set要大很多了。这两个语料库很难下载,可能因为是一个一个页面爬的,跑了很多遍,总是爬不完整。 有爬完整的同学希望能共享一下。
  3. 作者是在多机器多GPU的环境下跑的。我在macbook pro上跑了,完全跑不动。租了一台amazon的gpu instance, 跑了几天,内存不够(只有4G显存),被killed。接下来打算自己组一台机器来跑。
  4. 这个算法跑起来基本上都是按周来计时的。深度学习到底是不是一个烧硬件的陷阱?希望深度学习进化快点,别浪费太多的显卡资源。

这个算法让我有一种深深的担忧: 人类又要陷入GPU军备竞赛了,上次是挖比特币,这次是深度学习。 听说nvidia的股票都翻了好几倍了。微软都开始上FPGA了。

建议

这个方向是一个非常好的方向,可能会替代传统的机器摘要算法. 但是当前它的不足也很明显,然后在网上被讨论得也不多。 建议还是先用sumy,把业务模型搭建起来,验证一下市场需求,textsum做为后期改进吧。

Fairseq

Fairseq是Facebook开源的机器翻译库,刚开源就获得了一千多stars, 也是基于机器学习的。 机器学习真是火啊!

它基于sequnce to sequence算法, 基于机器学习库Torch. 也是一个烧GPU的东西。

它提供了一些训练好的模型,可以直接用来做验证。我们验证了一下英语到德语的翻译,效果还不错。可惜没有英语到中文的模型,也找不到英语到中文的翻译语料库。

因为它提供了训练好的模型,所以你要尝试它的话非常简单。下载训练好的模型,然后用fairseq generate-line 就可以做翻译了。

模型的训练 该库本身基于WMT语料库做了一些训练,可惜WMT主要针对的是欧洲的几种语言,没有英文到中文的翻译。在网上找了一些,也没有找到中英翻译的语料库,放弃训练。

建议 我们打算用google translate api. 以后需要自己开发翻译算法的话可以回到这里来。 但是,这个翻译语料好像始终是个大问题啊。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Gensim是一个Python库,用于从未标记文档中无监督地学习文档的主题结构和单词之间的语义关系。TextTeaser是一个自动文本摘要框架,用于从文本中提取最重要的句子。Sumy是一个文本摘要工具,可以生成指定长度的文本摘要,支持多种摘要算法。它们的共同特点是都提供了文本处理和分析的功能,能够帮助用户实现自然语言处理中的一些基本任务,如主题建模、文本摘要和关键词提取等。 ### 回答2: Gensim、TextTeaser和Sumy都是自然语言处理(Natural Language Processing,NLP)领域中常用的工具。它们有各自独特的特点和功能。 Gensim是一个Python库,主要用于处理文本语料库以及进行文本相似度计算。它的主要功能包括:1)主题建模,可以将大量文本数据转化为主题模型,能够发现文本中的隐藏主题和语义信息;2)文档相似度计算,可以根据文本的内容和结构进行相似度比较;3)词向量表示,可以将文本表示为向量空间模型,方便后续的机器学习任务。总的来说,Gensim是一个强大的文本处理工具,可以帮助用户进行文本语料的分析和挖掘。 TextTeaser是一个自动文本摘要生成工具。它能够从较长的文本中自动生成简洁的摘要,帮助用户快速了解文本的要点。它的特点在于利用了自然语言处理和机器学习技术,能够通过自动提取关键句子和词语,生成高质量的文本摘要。该工具可以应用于新闻报道、科技论文等大量文本的快速概览。 Sumy是一个Python库,用于自动文本摘要摘要提取。它支持多种算法和模型,包括基于图形、基于词频和基于LDA主题模型等。Sumy的特点在于提供了易于使用的API接口,并支持多种文件格式,如文本文件、PDF文件和HTML文件等。用户可以根据自己的需求选择合适的算法,并进行自定义配置,从而生成符合自己要求的文本摘要。 综上所述,Gensim、TextTeaser和Sumy都是NLP领域中优秀的工具。Gensim主要用于文本处理和计算文本相似度,TextTeaser用于自动生成文本摘要,而Sumy则提供了多种摘要算法和文件格式支持,满足不同用户的需求。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值