03.19.01-test Welcome Wagon：对堆栈溢出进行分类注释

cunehu1722

于 2018-07-10 00:00:00 发布

阅读量131

点赞数

本文链接：https://blog.csdn.net/cunehu1722/article/details/104962433

版权

上个月，乔写了一篇关于Welcome Wagon工作的文章我们正在做，以使Stack Overflow更具欢迎性和包容性。我们目前的工作涉及跨领域的项目，从提出问题到制定社区标准等等。我们一直在做的一个项目是了解如何在Stack Overflow上使用和滥用注释。

我们是数据工程师（Jason）和数据科学家（Julia）。作为为生活和使用 Stack Overflow编写代码并在这里工作的人们，我们当然亲身经历并目睹了Stack Overflow注释中不受欢迎的行为，无论是出于谦卑，贪婪或嘲讽。我们针对这个特定项目的目标是理解这些问题，以便我们可以开始解决它们。这篇博客文章概述了我们的初步发现，可以从更多数据中学到的知识以及下一步。

分类评论

我（Jason）编写了The Stack Overflow Comment Evaluator 5000™，这是一个简单的应用程序，向您提供Stack Overflow上一个帖子的评论线程，并要求您将线程中的每个评论评为“良好”，“不受欢迎”或“侮辱性”。

关于Stack Overflow的评论已经被标记为粗鲁或滥用，但是此标志通常仅用于最恶劣和最有害的评论，这很罕见。我们正在此地以不公然的仇恨或虐待的方式来描述不受欢迎的评论，但仍会让您在参与我们的社区时三思而后行。我们认为可能属于此类的事物包括自尊心，sn蛇，讽刺等。

考虑到内部人员的数量以及询问他们的时间，我们估计了可以评价的评论数量。然后，我们在应用程序中加载了正确数量的注释线程，并邀请我们所有的社区经理，设计师，开发人员，主管，站点可靠性工程师和产品经理花一个小时对注释进行评分。我们有57位参与者对3,992条评论做出了13,742个评分。

评论类别的普遍性

如果我们对每条评论的等级进行多数表决（并列为更差的等级），那么Stack Overflow的评论就会像这样分解…

Rating % of comments
Fine 92.3%
Unwelcoming 7.4%
Abusive 0.3%

too long

根据我们其中参与其中并且熟悉Stack Overflow的人们的说法，关于Stack Overflow的评论中约有7％不受欢迎。一些不受欢迎的评论是什么样的？这些结合了真实评论的元素以显示典型示例。

“This is becoming a waste of my time and you won’t listen to my advice. What are the supposed benefits of making it so much more complex?”
“Step 1. Do not clutter the namespace. Then get back to us.”
“The code you posted cannot yield this result. Please post the real code if you hope to get any help.”
“This error is self explanatory. You need to check…”
“I have already told how you can… If you can’t make it work, you are doing something wrong.”

这些东西不是亵渎，仇恨或直接虐待，但肯定不受欢迎。查看多数票是一种方法，但是不受欢迎的经历并不是多数票。非常个人化如果我们查看个人的评级分布怎么办？

在参与调查的57个人中，中立或中立评论的中位值为93.2％，不受欢迎评论的中位值为6.5％。从该图中我们可以看到，人们在网站上所见到的评论的差异很大。直方图的形状很宽。看一下不受欢迎评级的分布。我们四个人没有发现不受欢迎的地方，我们三个人认为其中有超过五分之一的评论不受欢迎。这说明了经验的多样性。例如，具有特权背景的经验丰富的专业开发人员发现不受欢迎的情况可能与初级程度较低或特权较低的开发人员不同。

我们可以从最初的评级任务中学到什么？

在第一次对评论进行评分的过程中，我们能够衡量不受欢迎的评论的流行程度（由经验丰富的Stack Overflow社区成员/雇员认为）以及变化的程度。第一组评估者包括技术代表不足的人群，例如妇女，有色人种，同性恋者和跨性别者。我们不是看到有证据表明，在一个或多个这些组中具有同一性会导致个人标签评论的欢迎率更高，至少在最初的约60名参与者中任务。较大的评估人样本数量可能会导致统计差异。

在第一个评估任务中，有足够的注释供我们评估是否不受欢迎的注释在Stack Overflow的问题或答案上更普遍。让我们比较一下获得评分的当月的所有评论以及评分的评论。

被评定者归类为“良好”的评论比例在问答中与总体评论总数一致。但是，我们认为归类为不受欢迎或辱骂的评论有所转变；这些评论在问题上比答案上更普遍，相对百分比变化接近10％。当我们思考导致社区中不受欢迎的评论的原因以及下一步该怎么做时，记住这一点很重要。实际上，这里的动态是我们正在为新提问者改进工作流程的一部分< / a>。

我们还想了解一下评估者样本在某种程度上评估了评估者间的可靠性。您可能会从评级分布的直方图中猜测，评级者间的可靠性不会很高。我们以不同的速度将评论标记为不受欢迎。鉴于我们拥有的评分数据类型（并非每个人都看到了每条评论），我们可以使用 Krippendorff的alpha 来衡量可靠性 ; 此度量范围从零（没人同意）到一个（完全同意）。对于至少有3个人评价的评论，此初始数据集的Krippendorff的alpha为0.39。对于像社会科学那样的学术研究中的定性研究而言，这太低了。如果您在堆栈溢出问题上已经存在很长时间了，那么您可能想知道这是比大约5年前使用Amazon Mechanical Turk完成的注释分类项目的可靠性要好得多。

这样的可靠性度量是什么意思？它基于我们的经验和个性，反映了我们所有人如何体验Stack Overflow社区的真正多样性。在Stack Overflow工作的人比不上Mechanical Turk工人的人更同意不受欢迎的事情，但是即使我们60左右的人也不同意，我们可以可靠地编写注释以用于学术工作。显然，这种思想多样性不是什么意思，那就是要解决如何在整个社区中使用评论的问题是没有希望的。我们可以从这里学到什么，然后向前迈进。

不受欢迎的评论的影响

因此，根据您询问的对象，关于堆栈溢出的评论中约有7％不受欢迎。这意味着什么？首先，这对我们来说不够好。堆栈溢出是开发人员互相帮助的地方。我们的目标是成为一个专业的空间，使我们的行业，我们的职业以及是的互联网变得更美好。每个编写代码的人都应欢迎参加。

其次，患病率在5％到10％之间会对社区产生重大影响。让我们勾勒出一张餐巾纸的估算值。如果典型的开发人员每周一次或两次访问Stack Overflow以解决问题，则他们访问的问题都有答案，并且每个帖子（问题和答案）都有两个注释（请注意，注释为对访问者来说，比答案更可见），我们会保守地估计访问Stack Overflow的开发人员会在其编码生命的每个月中看到1到3个居高临下的，不受欢迎的评论。一个月不受欢迎的评论会把所有人赶走吗？显然不是，因为Stack Overflow仍然适用于许多情况。但是它将说服一些人，认为在这里不做贡献是不值得的，下个月的评论将说服更多人，依此类推。这仅考虑了这些评论的读者；那些评论指向的人自然会感到更加戏剧化。

那么，那现在带给我们什么呢？

This is the first step for us in addressing how comments are used at Stack Overflow, and we are exploring options for moving forward. We believe strongly both that human moderators are key and that human-in-the-loop machine learning can offer us powerful tooling.
It takes care to be understood well online, and people have different reactions to the same words. Remember that many more people than the post owner may read your comments, so write for posterity and make a conscious effort. When you see unwelcoming behavior, please flag it.
We at Stack Overflow want to more clearly frame our expectations around our community standards. Watch for updates about the evolution of our “Be Nice” policy into a fully articulated code of conduct.
We will be fielding this comment classification task more broadly soon, in order to learn more about how our community understands interaction via comments. Look for further work from us on this in the near future.