怎么引用arxiv上面的文章_数据库中论文标题中的连字符()会影响引用统计么?...

文/张勤

编/付慧真

信息资源管理系

浙江大学公共管理学院

    连字符-”(hyphens)是英文单词中的连接符号,英文论文标题中通常出现于一些合成词中。

    不同的数据库可能会对标题中的连字符进行不同的处理,例如在某些情况下IEEE 数字图书馆可能把破折号“—”替换成两个连字符(--),ACM 数字图书馆和 Google Scholar 则会换成冒号(:)。

4ea23d6b3d8eed9f09910f5a233ea6cd.png

不同数据库对连字符的处理[1]

    然而,近期IEEE软件工程学报发表的一篇研究指出,连字符会危害论文的被引频次,进而牵连到期刊的影响因子(JIF):如果论文标题中出现更多的连字符,其被引频次会减少。已有报道“全球两大引文数据库,都在悄悄少算引用次数”[2]对此进行介绍。

    这一结论相当于是对当今论文、期刊的影响力衡量准则提出了根本性挑战,随即引发了学界与业界的广泛关注,其中也有对该研究中所用数据、方法和指标计算等各方面的质疑

争议的导火索:

一篇IEEE的论文

2019年5月,来自澳大利亚伍伦贡大学(University of Wollongong)和香港大学的Zhi Quan Zhou,TH Tse和Matt Witheridge在IEEE Transactions on Software Engineering期刊上发表了题为Metamorphic Robustness Testing: Exposing Hidden Defects in Citation Statistics and Journal Impact Factors 的文章,即标题中的连字符会损害引用次数和期刊影响因子

73a991c3b25ceb18e83ad316787d2d7d.png

发表于IEEE上的论文原文[1]

    Zhou等选用Scopus和Web of Science数据库并采用了“Robustness测试”的方法来验证,发现这两大数据库都存在稳定性缺陷,“可能会导致标题中有连字符的论文出现错误的引用计数,进而导致数据库计算出的期刊影响因子存在问题。”

   并且,连字符对引用的负面影响这一现象“适用于所有主要的学科(包括生物学、化学、数学、物理学、医学以及计算机科学等)领域,不论出版物的质量如何。”

7e91062b8b7483650499386d68839114.png

原文中的结果:以IEEE软件工程学报为例,期刊因子与标题含连字符的文章占比呈负相关。[1]

f931e6684feba23e35770747106a8bbe.png

不同学科的标题包含连字符的文章比例[1]

    当然,文中所提出的引用计算有效性问题,矛头直指ScopusWeb of Science数据库。两大数据库相应的供应商公司Elsevier[3] 和 Clarivate Analytics[4]随即发文声明,数据库采用的引文链接匹配算法并不完全依赖于标题,实际引用的缺失与连字符是无关的

0763dbcca2593f931da85ae0ec80d5c0.png

Scopus在声明中指出了该研究存在的一些缺陷和错误[3]

2213184cef407b7e09c6ecede1a1138d.png

Web of Science声明连字符对期刊影响因子的计算并无影响[4]

质疑的焦点:

分析的瑕疵

    如果说两大数据库公司自身的回应或多或少出于保护自身利益的考量,荷兰莱顿大学(Leiden University)科学计量领域的两位学者Ludo Waltman和Nees Jan van Eck则以学界更为客观中立的视角,审视了原文结论的有效性,并在博客:Do hyphens in article titles harm citation counts? 中详细阐述了对Zhou等人的研究中存在的分析方法与依据等问题的质疑。[4]

34ea4923e0a5d7cd72bb06bec47f168b.png

Waltman和van Eck在博文中表达了对原文的质疑[4]

因果推论缺乏依据

1

     首先,Waltman和van Eck认为作者在混淆相关性和因果关系方面犯了一些基本错误。“Zhou等采用的方法是比较标题中有和没有连字符的文章的引文数,根据观察结果——标题中连字符的文章平均比标题中没有连字符的文章引用次数少,从而得出结论,Scopus和Web of Science的参考匹配算法不能正确处理连字符。”

   “ 虽然原文中也分析了一些干扰因素(例如研究领域和文章的出版年份),并观察到这些因素并不能解释观察到的引用计数差异,但是作者还是忽略了一些其他可能的因素,例如研究的类型(实证或是方法论研究)以及作者研究经验水平差异等等。因此作者仅仅由引用次数的差异推出算法缺陷的结论是缺乏有力支撑的。”

期刊影响因子分析有误

2

   “ 该研究的另一个问题是对期刊影响因子的分析。作者声称,期刊影响因子受到Web of Science参考匹配算法的影响。然而实际情况是:在计算期刊影响因子时,是以期刊为单位计算引用数量,而不是以期刊中每篇文章为单位,因而真正与计算期刊引用量直接相关的因素是被引期刊的名称及被引文章的出版年份。”

观点的交锋:

尚无共识

    其实除了上面讨论的问题之外,还有其他各种原因可以拒绝IEEE论文中的结论。如van Eck还利用Scopus数据库做了一个实验来验证论文标题中连字符的存在是否能解释引文链接的缺失,结果却发现:没有连字符的论文共得到了47,413,252次引用,实际数据库遗漏了530,064次引用,占比1.12%;而标题有连字符的论文共得到了36,727,027次引用,实际遗漏了394,958次引用,占比1.08%,可以说标题中连字符的存在与引用链接的缺失并不相关。[6]

5c3c514376835d2dda59589f74bde982.png

Waltman致原文作者的关于论文中相关结论和方法的意见[5]

    Waltman和van Eck 也尝试联系了IEEE论文的作者,并与他们分享了一些批评意见,希望可以有进一步的讨论。“但是原作者似乎不愿通过个人渠道参与进一步的讨论,表示更倾向于通过正式渠道(例如在IEEE该学报上发表论文)进行讨论。”

    随后Waltman和van Eck也与IEEE软件工程学报的编辑取得了联系,并考虑提交这样一篇论文以表达质疑,“希望以此推动更为深入的编辑调查,使得研究原文得以更正或撤销”。

我们:

还应该相信数据库吗?

    尽管Zhou等学者的研究存在着分析方法等方面的缺陷,但是Waltman和van Eck也坦承,“这并不意味着我们可以盲目的相信Scopus 和 Web of Science数据库所提供的引用数据”

    “实际上,算法参考匹配永远不会是完美的,这两个数据库的引文统计也不可避免的存在一些问题参考文献的匹配算法确实是数据库供应商需要密切关注的问题之一。” Waltman和van Eck 也曾在一篇会议论文中详细介绍了关于这些问题的研究,例如其中比较突出的问题是Web of Science中所谓的phantom references,“它会导致参考文献被完全不同的文献替换(可以参见下面的这些引用的示例)”。[7]

162a85d7ee73d18a64dbeebbec291561.png

原文中的参考文献在Web of Science实际收录时被错误的替换了[7]

    论文的正确引用不仅是对原文的尊重和认可,也是遵循基本学术规范,促进知识的传播和交流。正如Waltman和van Eck 所说,“我们希望对参考匹配问题的重新关注可以鼓励数据库供应商进一步提高其算法的质量”。而连字符对引用次数统计所引发的探讨,本质上也是学者们对更为精准进行科学评价的关切。

    目前IEEE软件工程学报还未有针对研究的质疑提出的更正声明或撤销声明,我们看见SEEscience也会保持后续的关注。不过,对于吃瓜的我们来说,下一次写论文的时候,标题里的连字符会不会看起来更“微妙”了一些呢?

6bbb9b9ac97c921b8cf7f02c8f80f1f8.png

欢迎留言与我们交流探讨~

参考来源:

[1] IEEE学报上的研究原文:

https://ieeexplore.ieee.org/document/8708940

[2] 科研圈的报道:全球两大引文数据库,都在悄悄少算引用次数:

https://www.linkresearcher.com/theses/65fdbde2-5270-45c4-9066-20f93ff3d862

[3] Scopus的声明:

https://blog.scopus.com/posts/fact-or-fiction-hyphens-in-an-article-title-negatively-impact-citation-counts

[4] Web of Science的声明:

https://clarivate.com/wp-content/uploads/2019/06/10.1109TSE.2019.2915065-Clarivate-Analytics-Response.pdf

[5] Waltman与van Eck的博文:

https://www.cwts.nl/blog?article=n-r2x254&title=do-hyphens-in-article-titles-harm-citation-counts

[6] Waltman与van Eck写给原文作者的一些意见:

https://docs.google.com/document/d/1LckU49cmjWWhjng4o54SPOjq79k2OvA13-x2qHchRro/edit

[7] Waltman与van Eck于2017年发表的一篇关于数据库参考文献匹配问题的会议论文:

https://arxiv.org/abs/1906.07011

ab1324092abf3cda2b1e2adc65c5bc4b.png 4dedb96cf3f8684064defd3fb0effb96.png

看见SEEscience

811ba20f1c33154f54b69b077405e359.png

科研路上

陪你看见

陪你修炼

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值