ncib网站爬虫源代码(上一篇博客内容)

from bs4 import BeautifulSoup
import requests
from lxml import html
start_url = 'https://www.ncbi.nlm.nih.gov/pubmed/?term=Journal+of+medicinal+chemistry'
url = 'https://www.ncbi.nlm.nih.gov/pubmed/{}'
header={
'Cookie': ' xxx '
'Host': 'www.ncbi.nlm.nih.gov',
'Referer':start_url,
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
}
def get_Detail():          #获取分页url,传递url。
res = requests.get(start_url, headers=header)
soup = BeautifulSoup(res.text,'html.parser')
for i in range(0,20):
pmid = soup.select('.rprtid')[i].text.lstrip('PMID:').strip()
each_url = url.format(pmid)
get_con(each_url)
def get_con(each_url):    #获取详细页面函数
res = requests.get(each_url)
tree = html.fromstring(res.content)
print("标题:")
title = tree.xpath('//h1/text()')
print(title[0],end='')
print("\n作者:")
auther = tree.xpath('//div[@class="auths"]/a/text()')
for auter in auther:
print(auter,end=",")
print("\n摘要:")
abstract = tree.xpath('//div[@class=""]/p/text()')
if abstract:
print(abstract[0],end="")
else:
print(" ")
print("\nPMID:")
pmid = tree.xpath('//dl[@class="rprtid"]/dd/text()')
print(pmid[0],end="")
print("\nDOI:")
doi = tree.xpath('//dl[@class="rprtid"]/dd/a/text()')
print(doi[0])


if __name__ == '__main__':
get_Detail()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

带鱼工作室

感谢您的支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值