最近在研究FM模型的时候,遇到了一个名词:辛普森悖论。
下面来说一下什么是 辛普森悖论。
在对样本集合进行分组研究时,在分组比较中都占优势的一方,在总评中有时反而是失势的一方,这种有悖常理的现象,就成为 “辛普森悖论”。
下面来看个例子:
就用视频推荐的例子,来阐述一下辛普森悖论。
如下两表为某视频应用中男性用户和女性用户点击视频的数据。
表1
视频 | 点击(次) | 曝光(次) | 点击率 |
---|---|---|---|
视频A | 8 | 530 | 1.51% |
视频B | 51 | 1520 | 3.36% |
表2
视频 | 点击(次) | 曝光(次) | 点击率 |
---|---|---|---|
视频A | 201 | 2510 | 8.01% |
视频B | 92 | 1010 | 9.11% |
从上述数据中可以看出,无论男性用户还是女性用户,对视频B的点击率都高于视频A,显然推荐系统应该优先考虑向用户推荐视频B
那么,如果忽略性别这个维度,将数据汇总如下表,会得出什么样的结论呢?
表3
视频 | 点击(次) | 曝光(次) | 点击率 |
---|---|---|---|
视频A | 209 | 3040 | 6.88% |
视频B | 143 | 2530 | 5.65% |
在汇总结果中,视频A的点击率居然比视频B的高。如果根据此进行推荐,将得出与之前结果完全相反的结果,这就是所谓的“辛普森悖论”。