WOS_Crawler: Web of Science图形界面爬虫、解析工具

太长不看

WOS_Crawler是一个Web of Science核心集合爬虫。

  • 支持爬取任意合法高级检索式的检索结果(题录信息)
  • 支持爬取给定期刊列表爬取期刊上的全部文章(题录信息)
  • 支持选择目标文献类型,如Article、Proceeding paper等
  • 支持多种爬取结果的保存格式,如Plain text、Bibtex、HTML等,推荐使用Plain text,解析速度最快
  • 支持将爬取结果解析、导入数据库(目前支持Plain text、Bibtex、XML格式解析、导入),解析数据项除了基本的文献信息外(标题、摘要、关键词、被引量等),还包括作者机构、基金、分类、参考文献等信息

WOS_Crawler基于Scrapy,使用PyQt5编写了图形界面,也有单独的Python API

程序主要依赖:Scrapy、BeautifulSoup、PyQt5、SQLAlchemy、bibtexparserqt5reactor

项目地址:https://github.com/tomleung1996/wos_crawler

笔者是编程新手,这个爬虫能确保核心功能的正常使用,但肯定存在很多不人性化的地方和BUG,希望大家多多提意见!


0. 写在前面

Web of Science的爬虫我在一年多前就已经有写过,但是那个时候并没有考虑如何把程序写得更灵活、人性化一些,更多地只是满足自己学习科研上的需要。毕竟,采集Web of Science的题录数据其实是一个相当冷门的需求了,估计写出来也没人用。

但是我把这个爬虫整理一下放上GitHub,让大家用一下吐槽一下,说不定能够帮到一些和我一样的人,顺便提升我的编程能力。据我了解有不少同学面对老师的WoS文献采集任务还是只能手动500条一次次下下来,这个时间说长不长,但是为什么不把它省下来呢?对吧。所以就有了这个项目了。

做了数据爬取,然后还得把文本项解析一下存到数据库才能进行分析,我就索性把解析和导入功能也做了。后面希望还能把基本网络分析的功能集成进来,比如关键词共现、作者合著、引文网络等等。

希望Web of Science的表单项和URL不要发生太大变化吧!(至少一年多没变了)


1. WOS_Cralwer的使用方法

程序主要包含两种使用方法,一种基于PyQt5编写的图形界面,另一种基于Python API

1.1 图形界面使用方法

将工程中的main.py文件第36行的crawl_by_gui()取消注释,执行程序启动图形界面
首先选择是根据期刊列表还是高级检索式进行爬取,然后选择期刊列表或者输入高级检索式。选择好保存路径、导出文件类型、保存格式后,点击开始爬取即可。爬取进度会在进度条显示。

在爬取的同时会进行结果的解析和数据库导入,默认的数据库使用的是SQLite,保存于目标路径的result.db文件中

1.2 Python API使用方法

将工程中的main.py文件第28-29行(按期刊列表)或第32-33行(按高级检索式)取消注释,传递合法的参数进去,执行程序即可。爬取进度会在终端显示。


2. 注意事项

  • 因为Web of Science本身的限制,单个检索式如果结果数大于10万的话,大于10万的部分无法导出(即使手工也不行),此时可以通过年份划分来减少结果数,分批导出
  • 导入数据库后,查询得到的结果条数可能会与网页结果数有偏差,我在定位目标批次后使用浏览器手动导出的方式证实了是WoS的问题(手动导出结果不足500条)。1万条结果会缺少5条左右
  • 本程序虽不能通过WWS API获取数据,但是支持解析WWS API获得的XML文件
  • 注重爬取道德,如有必要请设置合理的下载延迟
  • 程序BUG在所难免,请在评论留言或提交ISSUE

3. Web of Science爬取逻辑

严格来讲,Web of Science的文献信息采集,是不需要“爬取”的,我们只是用到了它本身的导出功能(见下图)。
图1
这个导出功能一次最多只能导出500条,如果我们要采集的检索结果多达数万,那么就要重复操作很多次了。而且,WoS默认的导出文件名称都叫savedrecs.xxx,手动改名字也是一个恶心的工作。

但既然WoS已经为我们提供了结构良好的数据导出功能,我们就无需再从头开始写我们的爬虫了,只需要模仿我们的手工操作,不断重复地导出500条结果即可。

3.1 抽象爬取逻辑

首先,我们比较抽象地定义我们的爬取步骤:

  1. 向Web of Science 提交检索请求
  2. 反复导出文献,直到全部结果导出完毕

3.2 具体爬取逻辑

然后,打开抓包工具Fiddler,人工走一遍文献导出流程,完善爬取步骤:
值得一提的是,WoS的爬取可以说是特别简单,了解流程之后就会明白本质上只是提交几个表单即可,不同的导出配置可以通过修改表单项来实现,十分适合拿来练手

  1. 获取SIDSID是WoS用以辨识用户合法权限的标志,可以通过访问http://www.webofknowledge.com/,在跳转后的URL中直接提取获得(如果是校外等无权限用户,SID将不会在URL中出现
  2. 获取本校已经购买的数据库,如果爬虫不需要在各校通用的话,可以把表单中的这一项写死。本校已经购买的数据库可以在第一步的页面中提取idss_showsuggestions的元素内容得到
  3. 向指定的URL提交检索请求,指定的URL是http://apps.webofknowledge.com/WOS_AdvancedSearch.do,通过POST方式提交下面的表单,表单内容需要根据实际情况进行自动填充
KeyValue备注
productWOS
search_modeAdvancedSearch
SIDSID填入获取到的SID
input_invalid_noticeSearch Error: Please enter a search term.
input_invalid_notice_limits
Note: Fields displayed in scrolling boxes must be combined with at least one other search field.
actionsearch
replaceSetId留空
goToPageLocSearchHistoryTableBanner
value(input1)QUERY填入合法的高级检索式,如:TS=INFORMATION SCIENCE
value(searchOp)search
value(select2)LA
value(input2)填入目标文献语言,留空表示全部语言
value(select3)DT
value(input3)填入目标文献类型,留空表示全部类型
value(limitCount)14
limitStatuscollapsed
ss_lemmatizationOn
ss_spellcheckingSuggest
SinceLastVisit_UTC留空
SinceLastVisit_DATE留空
periodRange Selection
rangeALL
startYear1900这里其实应该填入学校购买的时间范围,但是我尝试过这个和实际不一致不影响,除非检索式查询的是范围外的
endYear2019填入当前年份
editions本校已购买的数据库以列表的形式填入,如["SCI", "SSCI", "AHCI", "ISTP", "ISSHP", "ESCI", "CCR", "IC"]
update_back2search_link_paramyes
ss_query_language留空
rs_sort_byPY.D;LD.D;SO.A;VL.D;PG.A;AU.A这里的AD表示升序和降序,前面的字母表示字段,影响结果排序
  1. 提取QIDQIDSID的结合是检索结果集合的唯一标志。提交检索请求和表单后,如果检索式合法并且表单无误,可以在URL中提取到QID
  2. 提取检索结果数,以便计算循环导出所需要的次数,在提交表单后跳转的页面可以得到
  3. 提取检索结果页面连接,在提交表单后跳转的页面可以得到
  4. 循环提交导出请求,假设500条一批,总共需要提交检索结果数除以500次,有余数则加1次,每次需要修改的只有STARTEND,即起止点。导出请求需要提交到http://apps.webofknowledge.com//OutboundService.do?action=go&&,表单格式如下所示:
KeyValue备注
selectedIds留空
displayCitedRefstrue
displayTimesCitedtrue
displayUsageInfotrue
viewTypesummary
productWOS
rurlresponse.url填写当前的URL
mark_idWOS
colNameWOS
search_modeAdvancedSearch
localeen_US
view_nameWOS-summary
sortByPY.D;LD.D;SO.A;VL.D;PG.A;AU.A
modeOpenOutputService
qidQID填入获取的QID
sidSID填入获取的SID
formatsaveToFile
filtersHIGHLY_CITED HOT_PAPER OPEN_ACCESS PMID USAGEIND AUTHORSIDENTIFIERS ACCESSION_NUM FUNDING SUBJECT_CATEGORY JCR_CATEGORY LANG IDS PAGEC SABBR CITREFC ISSN PUBINFO KEYWORDS CITTIMES ADDRS CONFERENCE_SPONSORS DOCTYPE CITREF ABSTRACT CONFERENCE_INFO SOURCE TITLE AUTHORS导出字段选择,这里我选择了全部字段
mark_toEND本批导出文章的止点
mark_fromSTART本批导出文章的起点
queryNaturalQUERY合法的高级检索式
count_new_items_marked0
use_two_etsfalse
IncitesEntitledno
value(record_select_type)range
markFromSTART本批导出文章的起点
markToEND本批导出文章的止点
fields_selectionHIGHLY_CITED HOT_PAPER OPEN_ACCESS PMID USAGEIND AUTHORSIDENTIFIERS ACCESSION_NUM FUNDING SUBJECT_CATEGORY JCR_CATEGORY LANG IDS PAGEC SABBR CITREFC ISSN PUBINFO KEYWORDS CITTIMES ADDRS CONFERENCE_SPONSORS DOCTYPE CITREF ABSTRACT CONFERENCE_INFO SOURCE TITLE AUTHORS导出字段选择,这里我选择了全部字段
save_optionsOUTPUT_FORMAT导出格式的选择,纯文本为fieldtagged,Bibtex格式为bibtex,其他类型可以参考WoS官网
  1. 提交表单后,WoS会返回文本类型的结果,将其重命名后直接保存即可,和手工导出的结果完全一致

以上就是Web of Science爬取的基本逻辑了,主要是表单项的填写,琢磨透之后可以省掉不少功夫

  • 36
    点赞
  • 100
    收藏
    觉得还不错? 一键收藏
  • 62
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 62
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值