这是少见的没有用神经网络的论文,感觉像是一股清流
一、任务定义
在本文中,我们考虑的任务是自动创建一个多段的概述文章,提供一个主题的综合总结。
我们使用特定领域的自动生成的内容模板为文章选择相关的材料。
(例如,关于疾病的文章的模板可能包含诊断、原因、症状和治疗。我们的系统通过分析人类创作文档的结构模式,归纳出这些模板。)
我们将这个任务定义为一个结构化的分类问题。我们估计我们的模型的参数使用感知器算法与整数线性规划(ILP)公式,运行在给定领域的一个示例文章的训练集。
我们的重点是生成新的概述文章,遵循维基百科文章的结构。
结构:
-
自动创建模板:模板自动从人工编写的文档中导出
-
内容选择的联合参数估计:模板中所有主题的参数共同学习。
二、相关工作
2种任务
- Concept-to-text generation
- text-to-text generation(鲁棒性强)
二者之间:domain-specific text-to-text generation
特定领域的训练数据中观察到的模式为主题组织提供了充分的约束
三、方法
1.预处理
- Template Induction
- 节标题做了聚类
- TF-IDF消除了任何内部相似度低的聚类
- Search
- 雅虎搜索 document title + topic,取前10个页面
2.学习内容的选择
3.Application:结果是,每个主题,一个摘要
四、模型
Ranking+Optimizing
对于每个主题,都有很多摘录片段竞争
为了选出最优的摘录,采用整数线性规划(ILP)。
变量声明
对于每个摘录 e j l e_{jl} ejl,如果摘录包含在最终文档中,则对应的指示符变量 x j l = 1 x_{jl}= 1 xjl=1,否则 x j l = 0 x_{jl}= 0 xjl=0
优化目标:
2个限制
- 只能有一个被摘录:
- 防止主题之间的冗余:(这个sim的计算应该得调参到一个合理的值吧)
计算使用了很多特征,如下
训练过程
自制的反向传播,我震惊
不过毕竟是09年的论文
五、实验结果
数据
两个领域:
- 美国电影演员和疾病
- 有2,150篇关于美国电影演员的文章和523篇关于疾病的文章(来自维基百科)
- 人类撰写的文章平均包含四个主题,每个主题平均包含193个单词。
基准
3个基准:
- Search
- No Template
- Disjoint
结果
联合的完整模型是最好的,但是无法超过Oracle system
论文值得学习的地方
毕竟是老论文,训练没有现在这么方便,得手动找一些特征,所以他们找的特征一定是很完整的。
采用了模板的方法。