【NLP公开数据集】NCBI疾病数据集

NCBI疾病数据集是一个在提及和概念层面进行全面标注的数据集。

数据包含

  • 793篇摘要
  • 2783个句子
  • 6892个疾病mention
  • 790个唯一疾病概念
    – 医学主题词【Medical Subject Headings (MeSH®)】
    – 人类孟德尔遗传学【Online Mendelian Inheritance in Man (OMIM®)】
  • mention表中的91%都由一个疾病概念一一对应,分成训练集、验证集和测试集

数据标注

  • 14个标注人员
  • 每个文档都有2个标注人员(随机分配)
  • 3个标注阶段
  • 检查所有语料的一致性

数据分布情况如下

ClassesTrain setTest setDev set
Modifiers1292264218
Specific Disease2959556409
Composite Mentions1162037
Disease Class781121127

用途
可以用于实体识别实验,常用于疾病实体识别研究。

参考文献:
[1] https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE/

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: DLBCL数据集是指Diffuse Large B-cell Lymphoma(DLBCL)的基因表达数据集。可以在NCBI的Gene Expression Omnibus(GEO)数据库中下载。具体步骤如下: 1. 访问NCBI GEO的网址:https://www.ncbi.nlm.nih.gov/geo/ 2. 在搜索栏中输入“DLBCL gene expression”或者“GSE:31312”,点击搜索按钮。 3. 在搜索结果页面中,选择“GSE31312”数据集,进入该数据集的详情页。 4. 在详情页中,点击“Download”按钮,在弹出的下载页面中选择需要的数据文件,点击下载即可。 需要注意的是,由于DLBCL数据集包含大量的数据文件,下载可能需要较长时间,并且需要足够的存储空间。同时,为了更好地使用这些数据,建议了解一些基本的生物信息学知识和专业工具的使用。 ### 回答2: 要下载DLBCL数据集,可以采取以下步骤: 1. 找到可信赖的数据来源:DLBCL数据集通常由公共数据库或研究机构提供。常见的数据库包括TCGA(The Cancer Genome Atlas)和GEO(Gene Expression Omnibus),或者你也可以在相关学术论文中找到数据集来源。 2. 访问数据集的官方网站或相关数据库:在数据来源的官方网站或数据库网站上搜索DLBCL数据集。 3. 搜索和筛选数据集:根据DLBCL数据集的名称或关键词进行搜索,并在搜索结果中筛选出最相关的数据集。 4. 阅读数据集描述和下载说明:在数据集的页面上,阅读数据集的描述和下载说明,了解数据集的详细信息以及下载的步骤。 5. 确定数据下载格式和要求:DLBCL数据集可能以不同的格式提供,如原始数据、数据文件或压缩文件等。还需要了解数据下载的要求,如登录账号、同意数据使用条款等。 6. 下载数据集:根据下载说明,点击相应的下载链接或按钮,选择下载数据集的文件或文件夹,并保存到本地计算机的适当位置。 7. 确认数据完整性:在下载完成后,验证数据集是否完整,即检查下载文件的大小和内容是否与数据集描述一致。 请注意,下载DLBCL数据集可能需要一定的时间和网络资源,尤其是对于较大的数据集。确保有足够的存储空间和稳定的网络连接,以确保成功下载数据集

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值