Automatically generating wikipedia articles: A structure-aware approach笔记

这是少见的没有用神经网络的论文,感觉像是一股清流

一、任务定义

在本文中,我们考虑的任务是自动创建一个多段的概述文章,提供一个主题的综合总结。

我们使用特定领域的自动生成的内容模板为文章选择相关的材料。

(例如,关于疾病的文章的模板可能包含诊断、原因、症状和治疗。我们的系统通过分析人类创作文档的结构模式,归纳出这些模板。)

我们将这个任务定义为一个结构化的分类问题。我们估计我们的模型的参数使用感知器算法与整数线性规划(ILP)公式,运行在给定领域的一个示例文章的训练集。

我们的重点是生成新的概述文章,遵循维基百科文章的结构。

结构:

  • 自动创建模板:模板自动从人工编写的文档中导出

  • 内容选择的联合参数估计:模板中所有主题的参数共同学习。

二、相关工作

2种任务

  • Concept-to-text generation
  • text-to-text generation(鲁棒性强)

二者之间:domain-specific text-to-text generation

特定领域的训练数据中观察到的模式为主题组织提供了充分的约束

三、方法

1.预处理

  • Template Induction
    • 节标题做了聚类
    • TF-IDF消除了任何内部相似度低的聚类
  • Search
    • 雅虎搜索 document title + topic,取前10个页面

2.学习内容的选择

3.Application:结果是,每个主题,一个摘要

四、模型

Ranking+Optimizing

对于每个主题,都有很多摘录片段竞争

为了选出最优的摘录,采用整数线性规划(ILP)。

变量声明

对于每个摘录 e j l e_{jl} ejl,如果摘录包含在最终文档中,则对应的指示符变量 x j l = 1 x_{jl}= 1 xjl=1,否则 x j l = 0 x_{jl}= 0 xjl=0

优化目标:

在这里插入图片描述

2个限制
  • 只能有一个被摘录:

在这里插入图片描述

  • 防止主题之间的冗余:(这个sim的计算应该得调参到一个合理的值吧)

在这里插入图片描述

计算使用了很多特征,如下

在这里插入图片描述

训练过程

自制的反向传播,我震惊

不过毕竟是09年的论文

五、实验结果

数据

两个领域:

  • 美国电影演员和疾病
  • 有2,150篇关于美国电影演员的文章和523篇关于疾病的文章(来自维基百科)
  • 人类撰写的文章平均包含四个主题,每个主题平均包含193个单词。
基准

3个基准:

  • Search
  • No Template
  • Disjoint
结果

联合的完整模型是最好的,但是无法超过Oracle system

论文值得学习的地方

毕竟是老论文,训练没有现在这么方便,得手动找一些特征,所以他们找的特征一定是很完整的。

采用了模板的方法。

解释这些参数optional arguments: -h, --help show this help message and exit --host HOST --port PORT --config-installer Open config web page, mainly for windows installer (default: False) --load-installer-config Load all cmd args from installer config file (default: False) --installer-config INSTALLER_CONFIG Config file for windows installer (default: None) --model {lama,ldm,zits,mat,fcf,sd1.5,cv2,manga,sd2,paint_by_example,instruct_pix2pix} --no-half Using full precision model. If your generate result is always black or green, use this argument. (sd/paint_by_exmaple) (default: False) --cpu-offload Offloads all models to CPU, significantly reducing vRAM usage. (sd/paint_by_example) (default: False) --disable-nsfw Disable NSFW checker. (sd/paint_by_example) (default: False) --sd-cpu-textencoder Run Stable Diffusion text encoder model on CPU to save GPU memory. (default: False) --local-files-only Use local files only, not connect to Hugging Face server. (sd/paint_by_example) (default: False) --enable-xformers Enable xFormers optimizations. Requires xformers package has been installed. See: https://github.com/facebookresearch/xformers (sd/paint_by_example) (default: False) --device {cuda,cpu,mps} --gui Launch Lama Cleaner as desktop app (default: False) --no-gui-auto-close Prevent backend auto close after the GUI window closed. (default: False) --gui-size GUI_SIZE GUI_SIZE Set window size for GUI (default: [1600, 1000]) --input INPUT If input is image, it will be loaded by default. If input is directory, you can browse and select image in file manager. (default: None) --output-dir OUTPUT_DIR Result images will be saved to output directory automatically without confirmation. (default: None) --model-dir MODEL_DIR Model download directory (by setting XDG_CACHE_HOME environment variable), by default model downloaded to ~/.cache (default: /Users/cwq/.cache) --disable-model-switch Disable model switch in frontend (default: False)
最新发布
06-09
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值