1.如果数据中有很多连续型变量,散点图矩阵会让人抓不到重点。这时可以两两计算相关系数。遗憾的是,如果把相关系数的数值展示成矩阵,并不直观。在此,可以将相关系数矩阵可视化。
2.箱线图(boxplot)是一种针对连续型变量的统计图.
3.箱子被压得很扁,甚至只剩下一条线,同时还存在很多刺眼的异常值。这种情况的出现有两个常见的原因:一是样本数据,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出这些异常;二是样本数据特别少,数据少就有可能出现各种诡异的情况,导致统计图很不美观---->做对数变换
4.回归分析主要包括五种类型:线性回归、0-1回归、定序回归、计数回归,以及生存回归,称为“回归五式”.
第一式:线性回归.其主要特征是:因变量Y必须是连续型数据,而对解释性变量X没有太多要求。普通线性回归在数据世界中,可以应用于股票投资、客户终身价值、医疗健康等领域。
第二式:0-1回归.0-1回归就是因变量Y是0-1型数据的回归分析模型。0-1型数据是指只有两个可能取值的数据类型。相关的重要应用很多,并且都很时髦有趣,比如互联网征信、个性化推荐、社交好友推荐等。
第三式:定序回归.定序回归就是因变量Y为定序数据的回归分析模型。定序数据就是关乎顺序的数据,但是又没有具体的数值意义。定序回归常见的应用场景如:各种关于消费者偏好的市场调研(李克特1~5点量表);豆瓣上对电影的打分评级(1~5分);电商平台上对商品或商家的满意程度(1~5颗星);在医学应用中,有些重要的心理相关的疾病(如抑郁症)也会涉及定序数据等。
第四式:计数回归.如果因变量Y是一个计数数据,那么对应的回归分析模型就是计数回归。什么是计数数据呢?就是数数的数据。
第五式:生存回归
点滴学习
最新推荐文章于 2023-10-29 12:26:49 发布