python爬取文献资料_Python 批量爬取Web of Science 文献信息数据

最新推荐文章于 2023-11-03 12:44:41 发布

weixin_39936086

最新推荐文章于 2023-11-03 12:44:41 发布

阅读量4.2k

点赞数 3

文章标签： python爬取文献资料

Web of Science是获取全球学术信息的重要数据库，它收录了全球13000多种权威的、高影响力的学术期刊，内容涵盖自然科学、工程技术、生物医学、社会科学、艺术与人文等领域。其中，Science Citation Index-Expanded(SCIE)，即科学引文索引，是一个涵盖了自然科学领域的多学科综合数据库，共收录9000多种自然科学领域的世界权威期刊，数据最早回溯至1900年。它是科学研究和科研管理的重要工具，不少师生的WoS文献采集任务还是只能手动500条一次次次下载⏬⏬⏬，耗时费力，容易出错。

Python是当今世界最热门的编程语言之一，在科研领域也发挥着强大的作用，尤其是在日常的学习和工作中，爬取数据与信息提取的需求日益增多。当你看到身边同学自己动手编写爬虫代码节省了大量时间时，难免心生羡慕。

下面介绍一个由@Tom Leung ‍ ‍ ‍ (毕业于武汉大学)开发的Web of Science 核心集合python爬虫工具——WOS_Crawler，更多地满足师生在学习科研上的需要，亲测试可以使用。

WOS_Crawler是一个Web of Science核心集合爬虫支持爬取任意合法高级检索式的检索结果（题录信息）

支持爬取给定期刊列表爬取期刊上的全部文章（题录信息）

支持选择目标文献类型，如Article、Proceeding paper等

支持多种爬取结果的保存格式，如Plain text、Bibtex、HTML等，推荐使用Plain text，解析速度最快

支持将爬取结果解析、⬇️⬇️⬇️导入数据库（目前支持Plain text、Bibtex、XML格式解析、导入），解析数据项除了基本的文献信息外（标题、摘要、关键词、被引量等），还包括作者机构、基金、分类、参考文献等信息

程序主要依赖包

Scrapy、BeautifulSoup、PyQt5、SQLAlchemy、bibtexparser、qt5reactor、networkX

weixin_39936086

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。