思码逸关钦杰：聊聊研效管理中的数据操纵

最新推荐文章于 2024-04-30 23:32:15 发布

思码逸研发效能

最新推荐文章于 2024-04-30 23:32:15 发布

阅读量782

点赞数 19

文章标签：大数据人工智能

本文链接：https://blog.csdn.net/simayi2018/article/details/135058180

版权

3月25日，思码逸咨询总监、研发过程提效专家关钦杰在 QECon 质效城市论坛【深圳站】分享了主题为《聊聊研效管理中的数据操纵》的演讲。

以下内容根据关钦杰老师分享内容整理：

在生活中，当我们去描述客观事实的时候，我们经常要用数据说话，比如，盐少许，就不如说盐 2 克更加科学精准。但是反过来我们也会发现，有时候数据不变，但说法不一样，结果和信息也会发生偏差。

我们今天也来聊一个相对轻松有趣的话题：研效管理过程当中数据操纵有哪些？我们有哪些反操纵的方法？数据本身不会说谎，但如何去呈现，传递的信息和结果可能会发生很大的一个反差。

百分比陷阱

谷歌曾经遭到公众质疑，认为谷歌搜索返回的结果当中有假新闻和虚假信息。对此，谷歌的一名副总裁回应说，日常搜索中确实有一小部分查询会返回误导性的内容，但是占比很小，只有约0.25%。乍一听，这个数字很小，问题好像也并不严重。但谷歌每天要处理50亿次搜索，0.25%意味着，每天有1200多万次搜索会返回虚假信息，足以造成较大的负面影响，并不是一个小问题。

谷歌副总裁的说法其实是在利用百分比的方式弱化问题。百分比对同一个数据，在表述上也是“可大可小”的，完全看你想强调什么。比如某个地方的消费税，从购买价格的4%提高到了6%，可以说是增长了2个百分点，也可以说是增长了50%，因为花同样的钱，要交的税比原来确实多了50%。

但这两种说法，给人的感觉完全不一样，如果我想让人觉得增税幅度微不足道，就可以说只增加了2个百分点。如果我想让人觉得增税幅度很大，就可以说税率增加了50%。这也就意味着，需求交付率可能是一个伪指标。为什么呢？我们需要问两个问题：

第一，需求的大小可比吗？

我们的需求交付率是多少？迭代的百分比是多少？这个百分比是可以比较的吗？未必，因为需求的复杂度不一样，拆分的颗粒度不一样，不见得交付了10个需求就比5个需求的工作量大。

第二，前置时长平均值可信吗？我们经常会看到说需求的交付前置周期，前置时长是多少天？需求的平均交付时长是13.5天，但我们把数据标准从均值改为80分位/85分位数，会发现大多数需求交付周期长达21天，比13.5天多了差不多50%，是非常大的差异。

为什么这两个数据之间有这么大的差异？我们来看一下场景实例。这是不同的产品线和不同时期需求的实际规模，也就是对应到我们所说的代码当量。

我们用代码当量去校准需求的颗粒度。代码当量是在抽象语法树基础上计算开发工作量，可以挤压掉代码行统计水分，有效地去除编码过程中的不良习惯和噪音，比如空行注释等等不良的操作习惯。我们在这里将代码当量作为一个类等比的单位。即大家有统一认知的、更加接近实际开发工作量的单位，可以用来校准需求的颗粒度。

第一个维度是稳定性。当需求颗粒度在450当量以内时，不会受到太多需求变更的干扰，交付的速率相对来说更高，稳定性相对高。第二个维度是质量。需求颗粒度大于2500当量，重点缺陷密度呈现指数增长。

所以在这个过程中，我们需要给组织提供一个可以校准的方法，然后再利用历史数据得到一个最优区间，帮助我们去指导需求的颗粒度拆分。在拆分后落到实际研发的过程中，我们如何去规划也取决于估算标准故事点是否合理，需要我们对历史结果进行校准。

警惕数据删失

在前面的部分我们讲到，百分比和均值都有一定的陷阱，再去看数据时，需要多当心，深入地思考。那么我们还可以做哪些下钻分析？接下来我们来看第三个典型的数据操纵——警惕数据的删失。

在《拆穿数据胡扯》这本书中有一个有趣的例子，是关于死亡年龄与音乐类型的曲线，即从事的音乐类型与寿命之间的相关性。我们看到，从事传统音乐类型（如布鲁斯、爵士乐、福音音乐等）的音乐人似乎是比较安全的，而新风格的音乐表演（如朋克、金属，尤其是说唱和嘻哈）看起来非常危险。

而实际上是：

导致这些数据有误导性的原因是右删失——在研究结束时仍然活着的人被从研究中删除了。
说唱和嘻哈属于新的音乐类型，最多40多年的历史，大多数音乐人从20几岁开始从业，所以大多数人都健在。
相比之下，爵士乐、蓝调、乡村等音乐已经存在一个多世纪了，所以多数人活到了80岁甚至更久。

由于这个数据中剔除了健在的人，只把去世的人的数据拿进来了，所以导致这个数据看起来非常恐怖，不完整的数据统计周期会导致数据样本有这样大的偏差。

在场景实例中，也有样本范围选择偏倚的问题，比如可能会遇到，近一年半生产率呈现下降趋势，而近半年生产率呈现上升趋势。如何去反操纵呢？我们给出的反操纵术关键词是：不以高低论英雄。而是向外看水平，与行业相比，处于什么样的水平；向内看变化，与历史比，发生什么变化。

以上，我们引用了一些比较有趣的例子，大家可以结合现实中的实例去进行数据洞察以及反操纵的思考。

总结

抽样偏差可能使无关数据间呈现相关性。

首先我们要解决抽样偏差的问题，如果要通过大样本分析得到清晰数据，我们需要解决抽样偏差和样本偏差本身的一些问题，抽样偏差有时候会使无关的数据呈现出某种相关性。

相关性不等于因果关系
为核心指标建立衡量健康度的指标阀
不要光看均值，要结合大多数看
不以高低论英雄，向外看水平，向内看变化

数据从来都不会说谎，但也不会说出全部真相。在这个时代我们去谈研发数字化的建设，更便捷地、更快速地获取了大量的数据的情况下，这些数据怎么呈现、怎么展示、怎么保证它的健康度，是我们未来很长一段时间需要不断去关注和思考的一个重要问题。

思码逸研发效能

关注

19
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
思码逸关钦杰：聊聊研效管理中的数据操纵

抽样偏差可能使无关数据间呈现相关性。首先我们要解决抽样偏差的问题，如果要通过大样本分析得到清晰数据，我们需要解决抽样偏差和样本偏差本身的一些问题，抽样偏差有时候会使无关的数据呈现出某种相关性。相关性不等于因果关系为核心指标建立衡量健康度的指标阀不要光看均值，要结合大多数看不以高低论英雄，向外看水平，向内看变化数据从来都不会说谎，但也不会说出全部真相。在这个时代我们去谈研发数字化的建设，更便捷地、更快速地获取了大量的数据的情况下，这些数据怎么呈现、怎么展示、怎么保证它的健康度。
复制链接

扫一扫