医学文献摘要方面的数据集选取及构造

一、基于PICO语料库的分析

        参考论文:https://aclanthology.org/2022.wiesp-1.4.pdf

        该论文详细介绍了PICO语料库的研究过程及构造方式,其明确指出,该语料库内容是与乳腺癌相关的随机对照试验(RCTs),他们选择该方面的理由如下:乳腺癌是世界上死亡的主要原因之一,同时他们专注于随机对照试验,因为它们被认为是临床研究方法的黄金标准。因此我们在确立数据集的过程中,主要衡量标准为世界上死亡的主要原因之一与临床研究的具体方法,从而确定我们需要进一步考虑的病和研究方法。

二、基于全球疾病与临床研究的分析

        我们阅读了全球十大死亡原因这篇文章,总结出我们打算优先考虑的疾病:百度安全验证icon-default.png?t=N7T8https://baijiahao.baidu.com/s?id=1541185602917616&wfr=spider&for=pc

高血压、冠心病、心肌梗死——这些疾病的研究量大,有大量的随机对照试验和观察性研究。

慢性阻塞性肺病(COPD)、哮喘——呼吸系统疾病的流行病学特征和治疗策略在文献中有广泛的讨论。

肺癌、结直肠癌、前列腺癌——研究的热点,尤其是在治疗方法和药物研发方面。

糖尿病——发病率不断上升,相关的治疗、管理及其并发症的研究文献非常丰富。

COVID-19——近年来热点

阿尔茨海默病、帕金森病——病理机制和治疗方法有很多值得探讨的地方。

(抑郁症、焦虑症、精神分裂症||自身免疫疾病:如类风湿关节炎、系统性红斑狼疮等)

同时,针对临床研究方法,我们参考了知乎来自@行走的药匣子 的一篇有关临床研究的介绍。其具体介绍了临床研究按照研究方法可分为原始研究和二次研究。

原始研究中,又分为实验性研究与观察性研究,我们经过充分了解,并在PICO语料库的基础上,仍然以实验性研究中的RCT随机对照试验为重点,同时实验性研究还包括了半随机对照试验(qRCT)、交叉试验非随机同期对照试验,整体而言与随机对照试验大相径庭,因此我们目前只针对随机对照试验来进行探究。

而观察性研究中,我们后续会着重考虑队列研究——将一群(组)研究对象(队列)按是否暴露于某种研究因素分为暴露组与非暴露组(对照组),随访观察适当长的时间,比较两组之间所研究疾病(或事件)的发病率(或发生率)或死亡率差异,从而判断这个(些)暴露因素与疾病之间有无关联及关联大小的一种观察性研究方法。同时,我们的数据集也会相应考虑病例对照研究横断面调查设计。此外,观察性研究还包括描述性研究,但其常常是对一个新事件或疾病的第一个尝试性研究手段。这些研究一般来说强调一个新的疾病的特点或评估社区的健康状态。基本上无需表格化形式的可视化输出,也无需过多的可视化展示便可理解,因此我们不予考虑。

二次研究中,主要强调尽可能全面地收集某一问题的全部原始研究证据,进行严格评价、整合处理、分析总结后所得出的综合结论。因此我们也会去考虑系统分析与meta分析。

综述:

选取随机对照试验(RCT):RCT作为证据等级最高的研究设计,对所有疾病的研究都极其重要。并且在爬取设计RCT的文献时,可能需要平衡,确保所有疾病领域的RCT研究都能得到足够的关注。

备选队列研究:队列研究是明确疾病发病率及其自然史的最佳方法,还可用于研究单一暴露因素导致的多种研究结局。

备选系统分析与meta分析:是对多个原始研究证据再加工后得到的更高层次的证据。

三、数据集的确立与人为权重分配

针对爬虫程序的数据集的关键词确认与数量确认:(目前只针对RCT进行了分析研究)

Coronary heart disease%3brandomized controlled 20

Respiratory Disease%3brandomized controlled 15

lung cancer%3brandomized controlled  15

Aizheimer's disease%3brandomized controlled 15

diabetes%3brandomized controlled 20

COVID-19%3brandomized controlled 30

Depression%3brandomized controlled 20

autoimmune disease%3brandomized controlled 10

Hypertension%3brandomized controlled 20

AIDS%3bandomized controlled 10

未包括:(后续的改进方向)

神经系统疾病:除了阿尔茨海默病,还有如帕金森病、多发性硬化症等其他重要的神经退行性疾病。

消化系统疾病:如肝炎、肠易激综合症、胃肠道癌症等。

皮肤疾病:例如银屑病、湿疹。

内分泌系统疾病:如甲状腺功能异常、肾上腺疾病。

妇产科疾病:如子宫内膜异位症、卵巢癌。

儿科疾病:包括儿童期常见的传染性疾病及遗传病。

眼科疾病:如青光眼、白内障。

耳鼻喉科疾病:如慢性鼻窦炎、听力丧失。

四、数据集的爬取与筛选

上述的每个关键词都利用pubmed爬虫代码进行数据的爬取,每次爬取多爬取10~20篇文献,并针对爬取的文献进行粗略浏览,进而筛选出合适的能够提供一定训练能力的文献数据集。

最终确定了180篇RCT有关数据集:

  • 17
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值