从PubMed的HTML页面取标题和摘要文本--python

最新推荐文章于 2024-01-23 15:15:34 发布

Bio_farmer

最新推荐文章于 2024-01-23 15:15:34 发布

阅读量828

点赞数

文章标签： python

本文链接：https://blog.csdn.net/liyuhua2018/article/details/105874837

版权

从PubMed的HTML页面取标题和摘要文本

import urllib.request
import re
pmid = '31226949' # Pubmed的文献号
url = 'https://www.ncbi.nlm.nih.gov/pubmed?term={}'.format(pmid)
handler = urllib.request.urlopen(url)
html = handler.read()
title_regexp = re.compile(b'<h1>.{5,400}</h1>')
title_text = title_regexp.search(html)
abstract_regexp = re.compile(b'<h3>Abstract</h3><div class="">.{20,3000}</p></div></div>')
abstract_text = abstract_regexp.search(html)
print('title:',title_text.group())
print('Abstract:',abstract_text.group())

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Bio_farmer

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从PubMed的HTML页面取标题和摘要文本--python

从PubMed的HTML页面取标题和摘要文本import urllib.requestimport repmid = '31226949' # Pubmed的文献号url = 'https://www.ncbi.nlm.nih.gov/pubmed?term={}'.format(pmid)handler = urllib.request.urlopen(url)html = hand...
复制链接

扫一扫