自动摘要学习计划(英语)

英语单文档自动摘要

(1)针对单文档的自动摘要包

  英语的单文档摘要目前在国内外已相当成熟,因此在网上可找到许多相关的文档和源代码包等。

  1. sumy(安装条件:Python 2.7 / 3.3 +和pip ( Windows , Linux )) 

       用于从HTML页面或纯文本提取自动摘要的简单库和命令行实用程序。 该软件包还包含用于文本摘要的简单评估框架。包括:

        这里有一些其他摘要:

       详情见网址https://pypi.python.org/pypi/sumy。sumy在python中还有API可调用。

       此外,有关sumy的源代码也可在https://github.com/miso-belica/sumy上找到。

  2. 11种最好的开源自动摘要工具包,详情请见http://www.findbestopensource.com/tagged/summarization。该网站提供了11种最好的开源自动摘要工具包,分别有TextTeaserFast-summarizerBubble-summarizationPivotqueryAuto-summarizationIcsisummAcrsAlpha-sumUnbproteusTextsum-spring11Socialskip.

 

英语多文档自动摘要

(1)针对多文档的自动摘要包

  1. PKUSUMSUM(java)支持单文档,多文档以及主题相关的多文档自动摘要。

    北大万小军老师课题组推出文档自动摘要小工具PKUSUMSUM,集成多种无监督摘要提取算法,支持多种摘要任务与多种语言,采用Java编写,代码完全开源。说明文档可见http://www.icst.pku.edu.cn/lcwm/wanxj/pkusumsum.htm。此外,该工具包源码也可在github(https://github.com/PKULCWM/PKUSUMSUM)上找到。其包含的算法有:

MethodSingle-document summarizationMulti-document summarizationTopic-based Multi-document summarization
Coverage-YesYes
LeadYesYesYes
Centroid [1]YesYesYes
TextRank [2]YesYes-
LexPageRank[3]YesYes-
ILP [4]YesYes-
Submodular1 [5]YesYes-
Submodular2 [6]YesYes-
ClusterCMRW[7]-Yes-
ManifoldRank[8]--Yes

因项目需要,本人及其项目组成员用java改写的代码也即将上传到github上,网址稍后会公布。(传懋负责)

  2. Sumbasic算法(python语言,2005年)

  相关代码见https://github.com/hardik-vala/sum-basic

  在该份代码中,SumBasic有三种算法版本:

  (1)leading版本:通过在第一个文档中引用句子来总结文档,直到达到字限制。

  (2)original版本:使用原始SUMBASIC算法汇总文档。原始SUMBASIC算法描述如下:

  SumBasic算法是由Nenkova和Vanderwende2005年提出的基于词频的多文档抽取式文摘方法[1].他们认为文档集合中非停用词的相对频率可以较为准确地反映该词是否出现在专家文摘中.在SumBasic算法中每个句子S都赋予一个反映它所包含的词频的权值:

.(1)

式中:为一元概率观察值,使用最大似然估计计算时近似等于该词在语料库中出现次数占总词数的比例.

根据式(1)计算句子的分值,并按分值将句子由高到低添加到文摘中,直到达到限制的文摘字数,由该方法得到的模型记为Unigram.在SumBasic算法中已经选为文摘的句子中单词的概率变为原概率的平方:,即选中单词的概率逐渐变小,从而降低文摘的冗余度.虽然SumBasic算法的思想非常简单,但取得了不错的效果[2].

   (3)simplified版本:简化的SUMBASIC算法,它保持字数不变,不包含非冗余更新。

引用文献:

 [1] NENKOVA A, VANDERWENDE L.The impact of frequency on summarization:MSR-TR-2005-101[ R] .Redmond, USA:MicrosoftResearch, 2005

[2]Haghighi A, Vanderwende L. Exploring content models for multi-document summarization[C]// Human Language Technologies: the 2009 Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009:362-370.

转载于:https://www.cnblogs.com/flippedkiki/p/6409138.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: LaTeX是一种专业的排版系统,被广泛用于各种学术出版物的制作,包括英文期刊。有很多网站和框架提供了用于制作英文期刊的LaTeX模板,方便作者们编写、排版论文。 使用LaTeX模板制作英文期刊有很多好处。首先,模板提供了统一的格式和排版规范,确保论文的外观一致性和专业性。模板通常包括各种定制命令和环境,使作者可以轻松地插入数学公式、图表和引用等各种元素。同时,模板还提供了不同的论文类型、布局和字体选项,以满足不同期刊的要求。此外,模板还提供了详细的使用说明和示例,帮助作者更好地理解和使用。 为了使用LaTeX模板制作英文期刊,首先需要选择一个适合的模板。常见的选择包括Elsevier,IEEE,Springer等期刊的模板。然后,下载并解压模板文件。模板通常包含主文件(.tex)和一些辅助文件(.sty和.cls)。通过编辑主文件,作者可以输入自己的论文内容,并根据需要进行格式和排版调整。在文中需要插入公式、图表或引用时,可以使用特定的命令或环境来实现。最后,通过编译主文件,生成PDF格式的最终论文。 总之,LaTeX提供了一种简单而强大的方式来制作英文期刊。使用LaTeX模板可以帮助作者快速高效地编写和排版论文,使其呈现出专业、规范的外观。 ### 回答2: LaTeX是一种排版系统,用于创建高质量的文档,尤其适用于学术界。许多学术期刊提供自己的LaTeX模板,来帮助作者在预先定义的格式和样式下撰写文章。 LaTeX英文期刊模版是一个为撰写英文学术文章而设计的LaTeX模板。这些模板旨在满足期刊的排版要求,包括页面布局、节标题样式、引用、参考文献格式等。使用这些模板,作者可以专注于内容和核心思想,而无需关心繁琐的排版细节。 在使用LaTeX英文期刊模板之前,作者需要先下载和安装相关的LaTeX发行版和编辑器,如TeX Live和TeXstudio。安装完成后,作者可以从期刊的官方网站或其他途径获取模板文件。这些模板通常由.cls文件和示例.tex文件组成。 作者需要将自己的文章内容填充到示例.tex文件中,按照模板的要求进行格式调整。作者可以使用LaTeX的命令和语法来定义标题、设置字体、插入图片、创建表格等。通过编译.tex文件,作者可以生成PDF格式的最终文章。 使用LaTeX英文期刊模板的好处之一是保证论文的一致性和专业性。模板确保了每篇文章的外观和样式都一致,以便读者更好地阅读和理解。此外,模板还提供了许多有用的功能,如自动生成目录、交叉引用等,使得作者的工作更加高效和便捷。 总之,LaTeX英文期刊模板是一种为作者提供规范化和高质量文档排版的工具。它减轻了作者在格式方面的负担,并确保了最终产出的文章满足学术期刊的要求。对于习惯使用LaTeX的作者来说,这种模板是撰写英文学术论文的理想选择。 ### 回答3: LaTeX 英文期刊模板是用于撰写学术期刊文章的一种工具。LaTeX 是一种专业的排版系统,其主要特点是具有优雅的排版效果、高度可定制和跨平台使用。期刊模板是为了满足学术期刊的排版要求而设计的。以下是关于 LaTeX 英文期刊模板的一些重要信息。 首先,LaTeX 英文期刊模板通常由期刊的编辑部或提交给该期刊的作者提供。这些模板包含了期刊的格式要求、编写规范以及样式文件等。使用模板可以简化撰写过程,使得作者能够更加专注于内容创作而不用过多考虑排版细节。 其次,LaTeX 英文期刊模板包含了一些常见的命令和环境,用于插入标题、作者信息、摘要、正文、参考文献等元素。它们被预先设计好,符合期刊的排版规范。使用这些命令和环境,作者只需输入相应的内容,LaTeX 就会自动完成相应的排版工作。 此外,LaTeX 英文期刊模板通常还提供了一些选项,用于控制排版效果,例如字体大小、行间距、页边距等。作者可以根据自己的需求选择不同的选项,以满足期刊要求或个人偏好。 最后,LaTeX 英文期刊模板的使用需要一定的学习成本。作者需要熟悉 LaTeX 的基本语法和命令,理解模板的结构和用法。虽然刚开始可能会有一些陡峭的学习曲线,但一旦掌握了基本的使用方法,它将成为撰写学术期刊文章的强大工具。 总之,LaTeX 英文期刊模板是一种方便、高效、符合规范的工具,可以帮助作者完成学术期刊文章的撰写和排版工作。它在学术界得到广泛应用,被认为是撰写高质量学术文章的首选工具之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值