"""
本博客是菜鸡的总结地,有不正确的地方请帮忙指正,蟹蟹!
"""
目录
摘要
首先介绍新冠肺炎以及新冠病毒的背景;
其次提出临床医生和决策者面临的问题:①对最新研究的获取变得困难、②错误答案得到的决定也是错误的;
然后提出模型——COBERT检索阅读双重算法系统,通过搜索新冠病毒开放数据集(59K)来回答复杂的查询。其中检索器由TF—IDF矢量器组成用于捕获500个最相关论文;在HuggingFace BERT transformers上的SQuAD 1.1 开发数据集预训练的BERT阅读器从过滤后的文档中提炼句子传递到Ranker中;Ranker是比较logits分数(全连接层的输出)来得到单行答案、标题、科学文献一整段。
一、介绍
1.检索器
首先,检索是在划分为段落的整个语料库中进行的,从而基于关注一元组和二元组的 tf-idf 创建特征。然后使用嵌入来计算与查询的余弦相似度,并获得顺序比较分数,然后用于检索具有最佳分数的前 500 个文档。然后,逐批执行比较以获取最有可能包含答案的文档。
2.阅读器
其次,阅读器通过进一步将文档拆分成句子来提取文档;然后用BERT对句子微调,用于根据查询之间的相似性优化自动生成的答案。
# 这一部分有点没懂
3.排名器
最后,排名器使用从检索器和阅读器得到的权重分数对答案进行排名然后将最佳答案输出。
二、国内外研究现状
pass
# 我最讨厌读国内外研究现状了。
三、模型方法
# 数据集地址:https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge.
# CDQA:封闭域问答系统
# ODQA:开放域问答系统
1.Retriever
2.Reader
3.BERT
# BERT交给七月剩下的日子学习吧
4.Ranker
总结
其实论文的具体实现依旧不清楚,但是作为参考的Baseline,慢慢更新吧。