目录
Motivation
Brenda数据库中对于脂肪酶催化非天然底物的记录非常缺乏,使得从Brenda数据开展ECI变得不够可靠,依托于一个现有数据库完成数据驱动的原型酶设计的技术路径受到阻碍。因此,需要做一些苦力活,从文献检索开始构建数据库。
工欲善其事必先利其器。虽然构建一个文献-知识-数据的数据库,并在其中穿插完成各种标注的想法显得比较诱人。但它所需要的技术能力和问题背景太过宽泛,很难认为直接投入代码工作是一个明智的选择。只有切实地完成整整一轮的从idea到paper的流程,才知道在新idea的发现中,重要的是文摘?网络结构?数据关联?还是其它的什么。
因此从文献阅读入手。以下是浏览知乎后挑出来的几个链接:
Connected Papers:文献网络,迅速把握关键节点论文。
罗昭锋 文献管理与信息分析:MOOC,授人以渔。
综述到底怎么写? - 知乎用户的回答 - 知乎:Bioliometrix,文献计量分析
如何快速筛选领域内必读文献 - 哈尔特的文章 - 知乎:HistCite,文献管理、文本分析、引文分析
研究生如何高效地阅读文献,并总结成读书报告? - 知乎用户的回答 - 知乎:文献筛选与阅读
本文,便以【脂肪酶催化的非天然反应】为例,进行全流程的文献筛选与综述。
正文(2021-04-02)
软件安装
在rstudio环境中安装了Rstudio。
install.packages("bibliometrix")
安装了biobliometrix,然后升级了R版本,在conda中安装了依赖包;又安装了一糊片东西,终于打开了?还是没有,提示一个报错,在overstackflow上找到了对应问题,但是还没有答案。
于是安装了一个【3.6.3版本】的R,重新安装了bibliometrix包,又安装了一糊片东西,终于打开了。
自网盘下载了histcite.
Bioliometrix
分析现有文献
自Web of Science 导出文献记录
在前期通过关键词检索和Connected Paper链接,已经确定了 Lipases in lipophilization reactions 这篇综述文章作为seed。将它的Citation导出,共102篇。在Reference处有一个查看相关记录,点进去之后出来12,237篇内容。还要啥自行车啊!直接把这些人肉导出来分析得了。
在麻木的重复劳动后,所有的记录都被导出来了。
seed = Lipases in lipophilization reactions
from WoS export Related Records
zip all Records
数据导入与分析
大概花了3分钟左右导入了12339篇文献。
通过Filter来设置筛选,之后的工具基于Filter出来的文献进行各种分析,可以分析期刊,作者,关键词,研究主题等。
期刊
【Most Relevant Sources 最相关的期刊 N. of Documents】
按照文献数进行排名,可以看到广泛发文的期刊有哪些。
【Most Cited Sources 总引用数最多的期刊】
对于领域,综合发文数和文章质量,最有影响力的期刊有哪些。
【Source Impact 期刊影响力 H-index排序】
对于领域,综合发文数和文章质量,最有影响力的期刊有哪些。
【Source Growth 期刊随时间的变化】
作者
【Most Relevant Authors 最相关作者 按Articles Fractionalized 排序】
【Most Local Cited Authors 被同行引用最多的】
清一色的外国人…有几个熟悉的名字,更多的是不熟悉的名字…
【Author Productivity through Lotka’s Law】
长尾分布/
【Author Impact H-index】
这个功能比较耗时,正在疯狂地计算中…
【Most Relevant Affiliations 发文量最多的机构】
有很多中国的学校:如江南大学、浙江大学、吉林大学、华南理工、背景化工。
【Corresponding Author’s Country】
【Country Scientific Production】
【Most Cited Countries】
美国、中国、西班牙、德国、日本、印度、巴西、英国、法国…
文献
【Most Cited Documents 全局引用最多的文献】
【Most Local Cited Documents 领域内的高被引文章】
【Most Local Cited References】
【Reference Publication Year Spectroscopy】
单词
【Most Frequent Words - Keywords Plus】
【Authors’ keywords】
【Titles】
【Abstracts】
【Wordcloud by Keywords Plus】
【Authos’ Keywords】
【Titles】
【Abstracts】
【Tree Map by Keywords Plus】
【Word Dynamics】
【Trend Topics】
【Thematic Map by keywords Plus】
【Thematic Map Network by Abstracts】
【Factorial Analysis】
主题分析?
【Topic Dendrogram】
histcite
导入文献
人肉导了4次引用排序,1次日期排序,3次相关性排序。
分析
经过紧张的计算,进入如下页面:
【Records】
按照LCS/CR排序以及选择Cited References.
【Authors by TLCS】
【Journals by TLCS】
【Country】
【Publication Year】
【引文网络!!!】
LCS 50
LCS 100
这个网络挺有意思的,左边是溶剂,中间是固定化技术,右边是lipase。
文献筛选
选择LCS 80 + Cited Reference 80. 共 153篇文献。
结论
光看这些题目,感觉得到的文献的话题还是太丰富了,并没有完全富集到所感兴趣的催化体系上,有很多都是离子液体/固定化酶技术等内容。说明搜集文献的group还需要精炼。
文献计量学
布拉德福定律/洛特卡定律/齐普夫定律