Hallo~ 皮卡皮卡皮ヾ(°∇°)ノ |
啊啊啊啊啊 每次WOS搜索输出后都需要手工搜索影响因子 并且修改excel文件格式,实在是太TM的烦了,因此决定写个python脚本,以一劳永逸
(大概导师都是手残吧,呵呵)
1. 首先我们康康一般的WOS怎么导出文献搜索结果
点击导出为 其他文件格式
- 选择需要导出的 搜索记录条数
- 选择导出 记录内容(由于我只需要整理2019-2020的PCS文献记录,因此只导出了 作者+标题+来源出版物)
- 选择 导出文件格式为WIN UTF-8
导出名为 savedrecs.txt 的记录文件,打开此txt ,键入ctrl + A 全选文件内容,复制到excel后,你将看到以下格式
可以观察到WOS导出的记录文件中 有太多我们并不需要的信息,一般而言需要文献出版的 年份、标题、期刊、作者、DOI 等信息即可。但是每次下载WOS的记录文件后都需要删除多余的列就太累了。
以下展示的是我运行完脚本后的文件格式
没错!!!本猪猪还加上了IF!!!!哈哈哈哈哈
2. 获取JCR表格
EMMMM, 前提条件是你们学校买了JCR哈
WOS的JCR界面长酱紫
点入BROWSE BY CATEGORY
你将康到酱紫的页面
直接点击右上角的下载符号~ ,即可下载JCR表格(推荐下载格式为CSV)~ 内含各期刊的IF~
得到 JCRHomeGrid.csv 后,打开表格,将第一行删除,因为第一行妨碍了之后pandas解析表格
3. 写脚本啦~
理清思路!!!
- 首先我可能需要将多种检索结果汇聚在一起,比如说我一次搜索了PCS和streptomyces scabies还有thaxtomin 3个不同关键词,那么我需要将这些搜索的导出结果都汇聚成一个表格
- 我需要将每个检索结果的列都进行一次筛选
我需要的只有PY(publish year)、TI(title)、AU(author)、SO(source? 其实是期刊名)、DI(DOI),一共5列,那么分别将每个检索结果的其它不需要的列去除后,再将结果合并在一起 - 解析JCR表格
- 合并JCR表格和检索结果表格,从而让每个期刊都拥有自己的IF
- 格式化excel的输出
最终结果长这样
最后可以利用DOI下载文献~
Gute Nacht~ |