Unsupervised Abstractive Meeting Summarization...论文笔记

1. 论文信息

Unsupervised Abstractive Meeting Summarization with Multi-Sentence Compression and Budgeted Submodular Maximization

ACL 2018

2. 相关工作(本文使用到了以下工作内容)

•Multi-Sentence Compression Graph (MSCG) (Filippova, 2010)

•More informative MSCG (Boudin and Morin, 2013)

•Graph-based wordimportancescoring (Tixieret al., 2016a)

•Fluency-aware, more abstractive MSCG (Mehdadet al., 2013)

•Submodularityfor summarization(Lin and Bilmes, 2010; Lin, 2012)

2.1 Multi-Sentence Compression Graph (MSCG) (Filippova, 2010)

•描述: 具有特殊权重(link frequency)的词图,找到K个最短的加权边,使用一个scoring function重新排序,得到的最好的路径即为多句压缩的结果。

•局限性: 丢失了重要信息,语法不完美

•下一步: 提升重要信息与语法,结合2.2所描述的内容。

2.2 More informative MSCG (Boudin and Morin, 2013)

•描述: 任务和方法与Filippova(2010)相同,构建词共现网络,使用Mihalceaand Tarau(2004)的方法计算节点的PageRank,将此分数加入对路径重新排序的函数之中,用来为路径加入信息。

•局限: PageRank并不是找到文档里word的重要性的最好的方式,且没有提升语法。

•下一步: 语法 ,使用最近的(Tixieret al., 2016a),其与“keywordedness”相关联的spreading influence比PageRank scores好。

2.3 Graph-based word importance scoring (Tixieret al., 2016a)

•描述: 使用固定大小的滑动窗口构建词共现网络(word co-occurrence network)为一个无向加权图,边权重表示共现次数。 

•局限: 生成的句子依旧丢失重要信息且语法也不完美。

•下一步:  Boudin and Morin (2013) 和 Mehdadet al. (2013).

 

3. 本文方法

本文方法:

1). 文本预处理

•ASR语音转文字

•过滤拟声词,间隔词,重复词,uh-huh, okay, well, by the way等等;

•频率低于阈值3多非停止词nonstopword被剪掉; 

2). 发言社区检测(TFIDF聚类)

3). 多句压缩

•词的重要性排序 -> 构建词图 -> 边的权重分配 -> 边的重排

4). 子模块预算最大化

 

具体描述:

2). 发言社区检测(TFIDF聚类)

使用k-means,将同一个主题的发言聚类到不同的社区,每一句发言都被映射到向量空间,使用标准TF-IDF分配权重。

其中utterance-term matrix使用Latent Semantic Analysis (LSA)来约减维度。

注意:

•We think word embeddings was not effective, because in meeting speech, participants tend to use the same term to refer to the same thing throughout the entire conversation.

•This is probably why, for clustering utterances, capturing synonymy is counterproductive, as it artificially reduces the distance between every pair of utterances and blurs the picture.

3). 多句压缩

•词的重要性排序 -> 

构建无向加权图,计算节点的CoreRank值,重新分配CoreRank分数,表示词在该簇内的重要程度,a term在不同簇出现的数量非常少。

•-> 构建词图 -> 

 

•-> 边的权重分配 ->

 

•-> 边的重排

 

4). 子模块预算最大化

 

5 Experimental setup

5.1 Datasets

  • AMI (McCowan et al., 2005) (widely-used )
  • ICSI (Janin et al., 2003)
  • test sets of 20 and 6 meetings respectively for the AMI and ICSI corpora (Riedhammer et al.,2008).
  • Each meeting in the AMI test set is associated with a human abstractive summary of 290 words on average,
  • each meeting in the ICSI test set is associated with 3 human abstractive summaries of respective average sizes 220, 220 and 670 words.
  • 下载地址: https://bitbucket.org/dascim/acl2018_abssumm  

For parameter tuning, we constructed development sets of 47(AMI) and 25(ICSI), by randomly sampling from the training sets.

The word error rate of the ASR transcriptions is respectively of 36% and 37% for AMI and ICSI.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

持续更新

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值