Automatically generating wikipedia articles: A structure-aware approach笔记

这是少见的没有用神经网络的论文,感觉像是一股清流

一、任务定义

在本文中,我们考虑的任务是自动创建一个多段的概述文章,提供一个主题的综合总结。

我们使用特定领域的自动生成的内容模板为文章选择相关的材料。

(例如,关于疾病的文章的模板可能包含诊断、原因、症状和治疗。我们的系统通过分析人类创作文档的结构模式,归纳出这些模板。)

我们将这个任务定义为一个结构化的分类问题。我们估计我们的模型的参数使用感知器算法与整数线性规划(ILP)公式,运行在给定领域的一个示例文章的训练集。

我们的重点是生成新的概述文章,遵循维基百科文章的结构。

结构:

  • 自动创建模板:模板自动从人工编写的文档中导出

  • 内容选择的联合参数估计:模板中所有主题的参数共同学习。

二、相关工作

2种任务

  • Concept-to-text generation
  • text-to-text generation(鲁棒性强)

二者之间:domain-specific text-to-text generation

特定领域的训练数据中观察到的模式为主题组织提供了充分的约束

三、方法

1.预处理

  • Template Induction
    • 节标题做了聚类
    • TF-IDF消除了任何内部相似度低的聚类
  • Search
    • 雅虎搜索 document title + topic,取前10个页面

2.学习内容的选择

3.Application:结果是,每个主题,一个摘要

四、模型

Ranking+Optimizing

对于每个主题,都有很多摘录片段竞争

为了选出最优的摘录,采用整数线性规划(ILP)。

变量声明

对于每个摘录 e j l e_{jl} ejl,如果摘录包含在最终文档中,则对应的指示符变量 x j l = 1 x_{jl}= 1 xjl=1,否则 x j l = 0 x_{jl}= 0 xjl=0

优化目标:

在这里插入图片描述

2个限制
  • 只能有一个被摘录:

在这里插入图片描述

  • 防止主题之间的冗余:(这个sim的计算应该得调参到一个合理的值吧)

在这里插入图片描述

计算使用了很多特征,如下

在这里插入图片描述

训练过程

自制的反向传播,我震惊

不过毕竟是09年的论文

五、实验结果

数据

两个领域:

  • 美国电影演员和疾病
  • 有2,150篇关于美国电影演员的文章和523篇关于疾病的文章(来自维基百科)
  • 人类撰写的文章平均包含四个主题,每个主题平均包含193个单词。
基准

3个基准:

  • Search
  • No Template
  • Disjoint
结果

联合的完整模型是最好的,但是无法超过Oracle system

论文值得学习的地方

毕竟是老论文,训练没有现在这么方便,得手动找一些特征,所以他们找的特征一定是很完整的。

采用了模板的方法。

在探索智慧旅游的新纪元中,一个集科技、创新与服务于一体的整体解决方案正悄然改变着我们的旅行方式。智慧旅游,作为智慧城市的重要分支,旨在通过新一代信息技术,如云计算、大数据、物联网等,为游客、旅游企业及政府部门提供无缝对接、高效互动的旅游体验与管理模式。这一方案不仅重新定义了旅游行业的服务标准,更开启了旅游业数字化转型的新篇章。 智慧旅游的核心在于“以人为本”,它不仅仅关注技术的革新,更注重游客体验的提升。从游前的行程规划、信息查询,到游中的智能导航、个性化导览,再到游后的心情分享、服务评价,智慧旅游通过构建“一云多屏”的服务平台,让游客在旅游的全过程中都能享受到便捷、个性化的服务。例如,游客可以通过手机APP轻松定制专属行程,利用智能语音导览深入了解景点背后的故事,甚至通过三维GIS地图实现虚拟漫游,提前感受目的地的魅力。这些创新服务不仅增强了游客的参与感和满意度,也让旅游变得更加智能化、趣味化。 此外,智慧旅游还为旅游企业和政府部门带来了前所未有的管理变革。通过大数据分析,旅游企业能够精准把握市场动态,实现旅游产品的精准营销和个性化推荐,从而提升市场竞争力。而政府部门则能利用智慧旅游平台实现对旅游资源的科学规划和精细管理,提高监管效率和质量。例如,通过实时监控和数据分析,政府可以迅速应对旅游高峰期的客流压力,有效预防景区超载,保障游客安全。同时,智慧旅游还促进了跨行业、跨部门的数据共享与协同合作,为旅游业的可持续发展奠定了坚实基础。总之,智慧旅游以其独特的魅力和无限潜力,正引领着旅游业迈向一个更加智慧、便捷、高效的新时代。
解释这些参数optional arguments: -h, --help show this help message and exit --host HOST --port PORT --config-installer Open config web page, mainly for windows installer (default: False) --load-installer-config Load all cmd args from installer config file (default: False) --installer-config INSTALLER_CONFIG Config file for windows installer (default: None) --model {lama,ldm,zits,mat,fcf,sd1.5,cv2,manga,sd2,paint_by_example,instruct_pix2pix} --no-half Using full precision model. If your generate result is always black or green, use this argument. (sd/paint_by_exmaple) (default: False) --cpu-offload Offloads all models to CPU, significantly reducing vRAM usage. (sd/paint_by_example) (default: False) --disable-nsfw Disable NSFW checker. (sd/paint_by_example) (default: False) --sd-cpu-textencoder Run Stable Diffusion text encoder model on CPU to save GPU memory. (default: False) --local-files-only Use local files only, not connect to Hugging Face server. (sd/paint_by_example) (default: False) --enable-xformers Enable xFormers optimizations. Requires xformers package has been installed. See: https://github.com/facebookresearch/xformers (sd/paint_by_example) (default: False) --device {cuda,cpu,mps} --gui Launch Lama Cleaner as desktop app (default: False) --no-gui-auto-close Prevent backend auto close after the GUI window closed. (default: False) --gui-size GUI_SIZE GUI_SIZE Set window size for GUI (default: [1600, 1000]) --input INPUT If input is image, it will be loaded by default. If input is directory, you can browse and select image in file manager. (default: None) --output-dir OUTPUT_DIR Result images will be saved to output directory automatically without confirmation. (default: None) --model-dir MODEL_DIR Model download directory (by setting XDG_CACHE_HOME environment variable), by default model downloaded to ~/.cache (default: /Users/cwq/.cache) --disable-model-switch Disable model switch in frontend (default: False)
06-09
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值