文章目录
1、前言
逻辑斯谛(Logistic)回归 模型不具备特征组合的能力,表达能力不强,会不可避免地造成有效信息的损失。在仅利用单一特征而非交叉特征进行判断的情况下,有时不仅是信息损失的问题,甚至会得出错误的结论。著名的“辛普森悖论”用一个非常简单的例子,说明了进行多维度特征交叉的重要性。
基础知识一什么是辛普森悖论
在对样本集合进行分组研究时,在分组比较中都占优势的一方, 在总评中有时反而是失势的一方,这种有悖常理的现象,被称为“辛普森悖论”。下面用一个视频推荐的例子进一步 说明什么是“辛普森悖论”。
假设表1和表2所示为某视频应用中男性用户和女性用户点击视频的数据。
<