Automatically generating wikipedia articles: A structure-aware approach笔记

涂卡

于 2020-07-05 12:05:47 发布

阅读量367

点赞数 1

分类专栏：看论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tuka2000/article/details/107137081

版权

看论文专栏收录该内容

11 篇文章

订阅专栏

这是少见的没有用神经网络的论文，感觉像是一股清流

一、任务定义

在本文中，我们考虑的任务是自动创建一个多段的概述文章，提供一个主题的综合总结。

我们使用特定领域的自动生成的内容模板为文章选择相关的材料。

(例如，关于疾病的文章的模板可能包含诊断、原因、症状和治疗。我们的系统通过分析人类创作文档的结构模式，归纳出这些模板。)

我们将这个任务定义为一个结构化的分类问题。我们估计我们的模型的参数使用感知器算法与整数线性规划(ILP)公式，运行在给定领域的一个示例文章的训练集。

我们的重点是生成新的概述文章，遵循维基百科文章的结构。

结构：

自动创建模板:模板自动从人工编写的文档中导出
内容选择的联合参数估计：模板中所有主题的参数共同学习。

二、相关工作

2种任务

Concept-to-text generation
text-to-text generation(鲁棒性强)

二者之间：domain-specific text-to-text generation

特定领域的训练数据中观察到的模式为主题组织提供了充分的约束

三、方法

1.预处理

Template Induction
- 节标题做了聚类
- TF-IDF消除了任何内部相似度低的聚类
Search
- 雅虎搜索 document title + topic，取前10个页面

2.学习内容的选择

3.Application：结果是，每个主题，一个摘要

四、模型

Ranking+Optimizing

对于每个主题，都有很多摘录片段竞争

为了选出最优的摘录，采用整数线性规划(ILP)。

变量声明

对于每个摘录 $e_{jl}$ ，如果摘录包含在最终文档中，则对应的指示符变量 $x_{jl}= 1$ ，否则 $x_{jl}= 0$

优化目标：

在这里插入图片描述

2个限制

只能有一个被摘录：

在这里插入图片描述

防止主题之间的冗余：(这个sim的计算应该得调参到一个合理的值吧)

在这里插入图片描述

计算使用了很多特征，如下

在这里插入图片描述

训练过程

自制的反向传播，我震惊

不过毕竟是09年的论文

五、实验结果

数据

两个领域:

美国电影演员和疾病
有2,150篇关于美国电影演员的文章和523篇关于疾病的文章(来自维基百科)
人类撰写的文章平均包含四个主题，每个主题平均包含193个单词。

基准

3个基准：

Search
No Template
Disjoint

结果

联合的完整模型是最好的，但是无法超过Oracle system

论文值得学习的地方

毕竟是老论文，训练没有现在这么方便，得手动找一些特征，所以他们找的特征一定是很完整的。

采用了模板的方法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。