url提取工具_使用 PubMed Text-Extract 工具提取摘要文本中关键词共存的句子

Pubmed 摘要文本分析是文本挖掘(生物医学方向)的基础任务。Hiplot 近期上线了一个网页工具 Pubmed Text-Extract 用于完成一些基础的 PubMed 摘要分析工作:将 PubMed 摘要格式化为 Excel 文件、提取感兴趣关键词共存的具体句子、提取 URLs。

数据输入:PubMed 检索词 + 感兴趣关键词(如基因名+某些表型)。

知乎视频​www.zhihu.com

e24edcd80749a62d005f653a1df78287.png
PubMed 检索词

48b4daa7aeb7cf8a71809269c6b1b881.png
用于提取句子的关键词列表

其他参数:

9852b1f92dfa15454476b2f3bc758f30.png
  • Mode 可以用于设置 PubMed 检索词的组合关系(AND 和 OR 可选)。
  • Proxy 用于设置网络代理。如果在拉取的条目数较多时,推荐设置该参数。因为我们的服务器访问 PubMed 速度不是太快,可能会导致数据请求不全或拖慢任务完成的速度。
  • From 参数用于设置抓取记录的起始点(最大限制为 9999)。
  • Fetch Limit 用于控制任务拉取的最大条目数(最大 2000)。
  • Extract URL 用于控制是否提取摘要文本中的 URL 链接。
  • Keep Abstract 用于控制是否保留摘要文本。

结果输出:

4b1914e2107f83986b35508e3237bf80.png

96ba916e8e5381d864b6f7175464fd5a.png

结果文件将主要包括以下数据列:

  • Pmid
  • Doi
  • Title
  • Abs
  • Journal
  • Issue
  • Volume
  • Date
  • Issn
  • Author
  • Affiliation
  • Correlation
  • URLs
  • Keywords

其中 Keywords 为文本中检测到的关键词(如 ["algorithm","model"]),Correlation 字段将包含所有关键词及其出现的具体句子,如

{"algorithm+dataset":["Built upon the support vector machine (SVM) algorithm and the biochemical encoding scheme, m5UPred achieved reasonable prediction performance with the area under the receiver operating haracteristic curve (AUC) greater than 0.954 by 5-fold cross-validation and independent testing datasets."]}

URLs 为提取的 URL 链接结果,如 ["https://github.com/xiaoyulu95/SSMD"]。

Hiplot​hiplot.com.cn
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
arser = argparse.ArgumentParser(description="Run GHCN.") parser.add_argument('--data_path', type=str, default='./data/', help='Input data path') parser.add_argument('--model_path', type=str, default='checkpoint.pt', help='Saved model path.') parser.add_argument('--dataset', type=str, default='Cora', help='Choose a dataset from {Cora, CiteSeer, PubMed}') parser.add_argument('--split', type=str, default='full', help='The type of dataset split {public, full, random}') parser.add_argument('--trim_prob', type=float, default=0.2, help='The probability to trim adj, 0 not trim, 1 trim') parser.add_argument('--seed', type=int, default=123, help='Random seed') parser.add_argument('--epoch', type=int, default=1000, help='Number of epochs to train') parser.add_argument('--lr', type=float, default=0.005, help='Initial learning rate') parser.add_argument('--weight_decay', type=float, default=5e-4, help='Weight decay (L2 norm on parameters)') parser.add_argument('--k', type=int, default=10, help='k-hop aggregation') parser.add_argument('--hidden', type=int, default=64, help='Number of hidden units') parser.add_argument('--dropout', type=float, default=0.7, help='Dropout rate') parser.add_argument('--patience', type=int, default=100, help='How long to wait after last time validation improved') args = parser.parse_args() for arg in vars(args): print('{0} = {1}'.format(arg, getattr(args, arg))) 修改代码要求:如果dataset不等于{Cora, CiteSeer, PubMed}的任何一项则不打印split
最新发布
05-31

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值