基于Pubmed数据库的蛋白质修饰后的信息挖掘

摘 要

如今Pubmed文献检索系统上发表的医学文献的数量十分庞大,且数量逐年增加,研究人员如果想人工地去查看找出Pubmed文献里面的知识是绝对不可能,因此,人们转而利用计算机去获取文献里面的知识。

本篇论文介绍了如何借用文本挖掘技术去挖掘出Pubmed文献里面的知识,并且结合了目前文本挖掘技术,讲述了如何实现了一套蛋白质磷酸化修饰的文本信息挖掘系统。

本系统主要应用于挖掘出Pubmed文献里面蛋白质磷酸化的修饰的一些信息,包括被修饰的蛋白质,激酶,修饰位点,以及它们之间的关系。

本文详细叙述了整套系统瀑布流模型的软件过程,首先是需求,然后是设计,再是实现,依次展开。在实现的阶段里面又包含了文本预处理阶段,命名实体识别阶段,实体关系提取阶段,数据可视化阶段,其中着重介绍了文本挖掘技术中两个的关键也是核心阶段的原理:命名实体识别和关系提取。同时也介绍了Abner工具和Rlims-p工具的原理和应用。此外文献数据库的数量庞大,为了提高程序性能和用户体验,于是介绍了几种提高效率,提高用户体验的解决方案,其中有多线程处理,缓存机制,预处理机制。

关键词:文本挖掘;软件工程;Pubmed;多线程

18702784-4329c685465325d6.png

点击此处下载源码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值