bert关键词提取_ir+bert: sigir19短文一篇

原文:Deeper Text Understanding for IR with Contextual Neural Language Modeling

链接:

https://arxiv.org/pdf/1905.09217.pdf​arxiv.org

针对的问题

bert的强文本理解能力能否应用到ir领域,能否带来ir领域性能的提升

结论

  1. 使用ir领域数据对bert进行fine-tuning,性能超过几个强baseline
  2. 长的,句子级别的query,检索性能,比短的,词级别的query,检索性能更好
  3. stopwords和标点符号,在现有的ir算法中被忽略,然而在文中基于bert的方法中有重要作用
  4. 在有标注数据非常稀少的前提下,使用领域内的知识,search log, 进行pretrain能够提升整体性能

模型

模型本身并不复杂,就是将query+doc喂bert进行fine-tuning做文本分类,但是会有一些细节问题:

d748b07e8dbe6a95a61bb5afcc2449d0.png
  • 长文本:将长文本拆成overlap的passages分别处理,具体做法是150words长度的滑动窗口,每次滑动步长75words. 最终的doc得分,分别取first passage (BERT-
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值