快速获取Scopus数据库文献信息（大于2万条）的方法

最新推荐文章于 2023-10-17 09:27:29 发布

孙大力编程进化史

最新推荐文章于 2023-10-17 09:27:29 发布

阅读量4.6k

点赞数 1

分类专栏：日常工作文章标签：爬虫

本文链接：https://blog.csdn.net/qq_37967241/article/details/116277258

版权

问题：针对某一检索式，scopus数据库导出csv的数据情况为：前2000条数据可以按照勾选的字段导出；前20000条数据只能给出引文信息，且通过邮箱发送。
输入检索式，笔者现在需要17万多文献数据，且所需的信息不只是引文信息，包含以下字段（涉及引文信息、题录信息、摘要和关键字），如下图。
在这里插入图片描述
采取的方法为：
第一步：按照年份进行精简，因为每年的数据都小于2万条，所以每次均可完整地通过邮箱的方式获取到只有引文信息的文献；
第二步，根据引文信息中的链接对每篇文章的摘要、索引关键字、作者关键字等字段进行爬虫，code如下。

# -*- coding: utf-8 -*-
#  爬取scopus的详细信息

import importlib,sys
importlib.reload(sys)
import requests
from lxml import etree
import time

#------将结果写入文件--------
import csv
res = open("content_2014.csv","a",encoding='utf-8',newline='')
writer = csv.writer(res)
user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
headers = {
   "User-Agent": user_agent,"Connection": "close"}  # 请求头,headers是一个字典类型
#--------------------第一步：读取数据----------------------------
word = []
f = open