一、基于PICO语料库的分析
参考论文:https://aclanthology.org/2022.wiesp-1.4.pdf
该论文详细介绍了PICO语料库的研究过程及构造方式,其明确指出,该语料库内容是与乳腺癌相关的随机对照试验(RCTs),他们选择该方面的理由如下:乳腺癌是世界上死亡的主要原因之一,同时他们专注于随机对照试验,因为它们被认为是临床研究方法的黄金标准。因此我们在确立数据集的过程中,主要衡量标准为世界上死亡的主要原因之一与临床研究的具体方法,从而确定我们需要进一步考虑的病和研究方法。
二、基于全球疾病与临床研究的分析
我们阅读了全球十大死亡原因这篇文章,总结出我们打算优先考虑的疾病:百度安全验证https://baijiahao.baidu.com/s?id=1541185602917616&wfr=spider&for=pc
高血压、冠心病、心肌梗死——这些疾病的研究量大,有大量的随机对照试验和观察性研究。
慢性阻塞性肺病(COPD)、哮喘——呼吸系统疾病的流行病学特征和治疗策略在文献中有广泛的讨论。
肺癌、结直肠癌、前列腺癌——研究的热点,尤其是在治疗方法和药物研发方面。
糖尿病——发病率不断上升,相关的治疗、管理及其并发症的研究文献非常丰富。
COVID-19——近年来热点
阿尔茨海默病、帕金森病——病理机制和治疗方法有很多值得探讨的地方。
(抑郁症、焦虑症、精神分裂症||自身免疫疾病:如类风湿关节炎、系统性红斑狼疮等)
同时,针对临床研究方法,我们参考了知乎来自@行走的药匣子 的一篇有关临床研究的介绍。其具体介绍了临床研究按照研究方法可分为原始研究和二次研究。
原始研究中,又分为实验性研究与观察性研究,我们经过充分了解,并在PICO语料库的基础上,仍然以实验性研究中的RCT随机对照试验为重点,同时实验性研究还包括了半随机对照试验(qRCT)、交叉试验、非随机同期对照试验,整体而言与随机对照试验大相径庭,因此我们目前只针对随机对照试验来进行探究。
而观察性研究中,我们后续会着重考虑队列研究——将一群(组)研究对象(队列)按是否暴露于某种研究因素分为暴露组与非暴露组(对照组),随访观察适当长的时间,比较两组之间所研究疾病(或事件)的发病率(或发生率)或死亡率差异,从而判断这个(些)暴露因素与疾病之间有无关联及关联大小的一种观察性研究方法。同时,我们的数据集也会相应考虑病例对照研究与横断面调查设计。此外,观察性研究还包括描述性研究,但其常常是对一个新事件或疾病的第一个尝试性研究手段。这些研究一般来说强调一个新的疾病的特点或评估社区的健康状态。基本上无需表格化形式的可视化输出,也无需过多的可视化展示便可理解,因此我们不予考虑。
二次研究中,主要强调尽可能全面地收集某一问题的全部原始研究证据,进行严格评价、整合处理、分析总结后所得出的综合结论。因此我们也会去考虑系统分析与meta分析。
综述:
选取随机对照试验(RCT):RCT作为证据等级最高的研究设计,对所有疾病的研究都极其重要。并且在爬取设计RCT的文献时,可能需要平衡,确保所有疾病领域的RCT研究都能得到足够的关注。
备选队列研究:队列研究是明确疾病发病率及其自然史的最佳方法,还可用于研究单一暴露因素导致的多种研究结局。
备选系统分析与meta分析:是对多个原始研究证据再加工后得到的更高层次的证据。
三、数据集的确立与人为权重分配
针对爬虫程序的数据集的关键词确认与数量确认:(目前只针对RCT进行了分析研究)
Coronary heart disease%3brandomized controlled 20
Respiratory Disease%3brandomized controlled 15
lung cancer%3brandomized controlled 15
Aizheimer's disease%3brandomized controlled 15
diabetes%3brandomized controlled 20
COVID-19%3brandomized controlled 30
Depression%3brandomized controlled 20
autoimmune disease%3brandomized controlled 10
Hypertension%3brandomized controlled 20
AIDS%3bandomized controlled 10
未包括:(后续的改进方向)
神经系统疾病:除了阿尔茨海默病,还有如帕金森病、多发性硬化症等其他重要的神经退行性疾病。
消化系统疾病:如肝炎、肠易激综合症、胃肠道癌症等。
皮肤疾病:例如银屑病、湿疹。
内分泌系统疾病:如甲状腺功能异常、肾上腺疾病。
妇产科疾病:如子宫内膜异位症、卵巢癌。
儿科疾病:包括儿童期常见的传染性疾病及遗传病。
眼科疾病:如青光眼、白内障。
耳鼻喉科疾病:如慢性鼻窦炎、听力丧失。
四、数据集的爬取与筛选
上述的每个关键词都利用pubmed爬虫代码进行数据的爬取,每次爬取多爬取10~20篇文献,并针对爬取的文献进行粗略浏览,进而筛选出合适的能够提供一定训练能力的文献数据集。
最终确定了180篇RCT有关数据集: