©PaperWeekly 原创 · 作者 | 李煜东
单位 | 深圳大学
研究方向 | 多模态机器学习
论文 CSL: A Large-scale Chinese Scientific Literature Dataset 发表在自然语言处理顶会 COLING 2022 上,由中国地质大学(北京)、深圳大学和腾讯 AI Lab 合作完成。
该工作提出了首个中文科学文献数据集-CSL,包含约 40 万条中文论文,具有广泛的领域分类和细粒度学科标签,能用于构建多种 NLP 任务,例如文本摘要、关键词生成和文本分类等。
论文标题:
CSL: A Large-scale Chinese Scientific Literature Dataset
收录会议:
COLING 2022
论文链接:
https://arxiv.org/abs/2209.05034
数据集链接:
https://github.com/ydli-ai/CSL
引言
随着科学文献出版数量的增加,NLP 工具在科学文献写作、检索和归档上都起到愈发重要的作用。例如