对应分析:对应分析也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
对应分析是解决分类变量间关系这个复杂问题的有力武器。也称为相应分析,是一种多元统计分析方法,目的是在同时描述各变量分类间关系时,在一个低维度空间中对对应表中的两个分类变量进行关系的描述。
常见应用领域如市场研究分析、竞争分析等。
01问题与数据
对于观影体验来说,不同人群对于自身喜好的电影类型是不同的,假设某个电影院运营方收集了以下数据。
不同年龄动作喜剧爱情恐怖悬疑科幻18~12343256435130~67214232751540~45611046474750~631212366731
数字表示人数,仅从交叉表内数据大小按照热度区分的话,效果大概是这个样子,红色越深的格子表示人数越多:
不同年龄动作喜剧爱情恐怖悬疑科幻18~12343256435130~67214232751540~45611046474750~631212366731
通过热力图可以进行初步分析,不同年龄段对于不同的电影类别的喜好是不同的,貌似都主要喜欢动作片和悬疑片,其他的并没有什么其他的发现。
![d294aa786b94124cbe0190357dbea6da.png](https://img-blog.csdnimg.cn/img_convert/d294aa786b94124cbe0190357dbea6da.png)
![204378d90492a7f54e2773847ce4aa30.png](https://img-blog.csdnimg.cn/img_convert/204378d90492a7f54e2773847ce4aa30.png)
可视化的效果要比前面热图好很多,给人的直观感觉是,各个年龄段好像对悬疑片感兴趣,对爱情片好像不怎么感兴趣。其他类型的片子差别不是太明显。
经过以上两种图示化方法的预处理,我们能从其中总结各个年龄段对于不同类型的电影喜好不同,但其他的信息提供的不多。
02对问题的分析
我们观察该部分的数据&#