Web of Science是获取全球学术信息的重要数据库,它收录了全球13000多种权威的、高影响力的学术期刊,内容涵盖自然科学、工程技术、生物医学、社会科学、艺术与人文等领域。其中,Science Citation Index-Expanded(SCIE),即科学引文索引,是一个涵盖了自然科学领域的多学科综合数据库,共收录9000多种自然科学领域的世界权威期刊,数据最早回溯至1900年。它是科学研究和科研管理的重要工具 ,不少师生的WoS文献采集任务还是只能手动500条一次次次下载⏬⏬⏬,耗时费力,容易出错。
Python是当今世界最热门的编程语言之一,在科研领域也发挥着强大的作用,尤其是在日常的学习和工作中,爬取数据与信息提取的需求日益增多。当你看到身边同学自己动手编写爬虫代码节省了大量时间时,难免心生羡慕。
下面介绍一个由@Tom Leung (毕业于武汉大学)开发的Web of Science 核心集合python爬虫工具——WOS_Crawler,更多地满足师生在学习科研上的需要,亲测试可以使用。
WOS_Crawler是一个Web of Science核心集合爬虫支持爬取任意合法高级检索式的检索结果(题录信息)
支持爬取给定期刊列表爬取期刊上的全部文章(题录信息)
支持选择目标文献类型,如Article、Proceeding paper等
支持多种爬取结果的保存格式,如Plain text、Bibtex、HTML等,推荐使用Plain text,解析速度最快
支持将爬取结果解析、⬇️⬇️⬇️导入数据库(目前支持Plain text、Bibtex、XML格式解析、导入),解析数据项除了基本的文献信息外(标题、摘要、关键词、被引量等),还包括作者机构、基金、分类、参考文献等信息
程序主要依赖包
Scrapy、BeautifulSoup、PyQt5、SQLAlchemy、bibtexparser、qt5reactor、networkX