统计分析--对应分析

统计分析–对应分析

--------仅用于个人学习知识整理和sas/R语言/python代码整理


1.前言

对应分析,主要适用于有多个类别的分类变量,可以揭示同一个变量各个类别之间的差异,以及不同变量各个类别之间的对应关系(简介摘录自:https://www.jianshu.com/p/77a0d15f0336)

以下通过实际例子 使用sas及r语言 进行实现,以及附上对应分析图的解读方式(没有找到python的实现方式,如果有,请不吝赐教!)

2.sas实现

1.源数据准备

以下数据全为测试虚构数据,只用来说明数据格式及辅助图的解读
输入数据集为以下交叉表格式,每一个数据代表该组别该变量的人数,假设这里要看五组人群和变量之间的关系,得到交叉表如下:
在这里插入图片描述

2.sas对应分析

sas对应分析主要使用proc corresp过程步,在进行对应分析是var参数需要输入所有变量名,所以先将所有变量放入宏变量中,实现代码如下:

/*存放变量*/
proc contents data=rawdata out=cont noprint;run;
proc sql  noprint;
select kcompress("'"||name||"'")||"n " into : name3 separated by ' ' from cont where name^='CLUSTER' and 
name^='cluster'  and name^='class' and  name^='right';
quit;

/*打印宏变量*/
%put &name3.;

/*进行对应分析*/
proc corresp data=rawdata print=percent observed cellchi2 rp cp
        short outc=data_out plot(flip);
      var &name3;
      id class;
    run;
%plotit(data=duiying.data_out,datatype=corresp,plotvars=Dim1 Dim2,color=black,href=0,vref=0) 
/*绘制对应分析图; %plotit中指定的参数分别是输入数据集名称、数据类型、绘图的变量名,坐标轴的颜色和参考线。用前面的输出数据集results中两个变量Dim1 Dim2绘图*/
run;
3.对应分析图解读

首先可以看到,第一维度解释了65.41%,第二维度解释了24.92%,说明在两个维度上,能够说明数据的90.33%

对应分析图有很多种解读的方法,附上一篇很详细的对应分析图详解:
http://www.botaijixie.cn/shiti/10937.html
我们一般会使用向量分析,即看和这个人群比较关联的产品是哪些,在下图中,如果要看和a人群比较关联的label,会从原点出发,向a的方向画一个向量(原点到a的方向作为向量正向),然后每个产品点向这条直线做垂线,垂足和a点的正向越近,表示和a越关联
在这里插入图片描述

3.r语言实现

r语言主要使用ca包中的ca函数
附上一篇写的较为详细的r链接:https://www.douban.com/note/236880884/

ca_data <- read_excel("Z:/ca.xlsx")

ca_data2<-as.data.frame(ca_data[,-1])
row.names(ca_data2)<-ca_data$class

library(ca)
plot(ca(ca_data2),dim = c(1,2),xlim=c(-1,1),ylim=c(-1,1), pch = c(16, 1, 17, 24))

在这里插入图片描述

  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
目  录    第1篇 统计学基础知识与SAS软件应用技巧 第1章 绪论  第1节 统计学的理论基础和研究对象  第2节 统计学的任务和作用  第3节 统计学的主要内容  第4节 学习统计方法的捷径  第5节 统计资料的类型  第6节 数据结构与统计方法的匹配  第7节 几个重要的统计名词 第2章 试验设计入门  第1节 试验设计的意义、要素、原则和原理  第2节 试验设计原则的实施办法  第3节 试验设计类型的概述 第3章 统计描述  第1节 统计表  第2节 统计图  第3节 平均指标──度量定量指标的平均水平(或集中趋势)  第4节 变异指标──度量定量指标的变异程度(或离散趋势)  第5节 随机变量及其概率  第6节 平均指标与变异指标的结合使用  第7节 分位数──描述偏态资料的情况和离散趋势  第8节 正态性检验  第9节 相对数──对定性资料进行统计描述 第4章 SAS软件应用入门  第1节 SAS软件简介  第2节 应用SAS的捷径  第3节 使用SAS必须了解的几个基本概念  第4节 使用SAS必须掌握的几组重要命令  第5节 实际运行SAS的步骤 第5章 SAS实用程序编写技巧  第1节 数据步流程  第2节 创建数据集的途径  第3节 建立数据集的技巧 第6章 用SAS软件实现简单的统计分析  第1节 用SAS实现单变量统计分析  第2节 用SAS语言编程求小样本率的置信区间 第7章 用SAS/GRAPH模块绘制常用统计图的方法  第1节 条图、圆图和直方图  第2节 散布图、普通线图和半对数线图    第2篇 试验设计与定量资料的统计分析 第1章 基本概念与方法的概述  第1节 假设检验中有关的基本概念  第2节 定量资料统计分析方法的概述 第2章 单组、配对和成组设计及其资料的统计分析  第1节 单组设计及其统计分析  第2节 配对设计及其统计分析  第3节 成组设计及其统计分析  第4节 本章几种试验设计类型的鉴别  第5节 统计资料的类型  第6节 数据结构与统计方法的匹配  第7节 几个重要的统计名词 第3章 误差固定的方差分析设计类型及其定量资料的统计分析  第1节 方差分析的应用场合、基本思想和前提条件  第2节 单因素K(K≥3)水平设计及其资料的统计分析  第3节 配伍组设计及其资料的统计分析  第4节 交叉设计及其资料的统计分析  第5节 拉丁方设计及其资料的统计分析  第6节 不完全拉丁方设计及其资料的统计分析  第7节 希腊拉丁方设计及其资料的统计分析  第8节 析因设计及其资料的统计分析  第9节 含区组因素的析因设计及其资料的统计分析  第10节 正交设计及其资料的统计分析 第4章 误差变动的方差分析设计类型及其定量资料的统计分析  第1节 平衡不完全区组设计及其资料的统计分析  第2节 单因素K(K≥3)水平设计及其资料的统计分析  第3节 系统分组(或嵌套)设计及其资料的统计分析  第4节 裂区(或分割)设计及其资料的统计分析  第5节 具有重复测量设计及其资料的统计分析 第5章 多个均数或均值向量之间的多重比较  第1节 有关的名词概念和符号的含义  第2节 具有显著性的单因素各水平之间的多重比较  第3节 具有显著性的交互作用项各水平之间的多重比较    第3篇 试验设计与定性资料的统计分析 第1章 2×2表资料的假设检验  第1节 试验设计及资料的表达格式  第2节 分析2×2表资料的常用公式及应用条件  第3节 应用举例  第4节 对列研究和病例─对照研究资料的分析 第2章 R×C表资料的统计分析  第1节 R×C表资料的分类  第2节 双向无序R×C表资料的统计分析  第3节 单向有序R×C表资料的统计分析  第4节 双向有序且属性不同的R×C表资料的统计分析  第5节 双向有序且属性相同的R×C表资料的统计分析  第6节 R×C表资料的分割  第7节 精确分割卡方值及其自由度的方法 第3章 高维列联表资料的统计分析  第1节 用合并法把3维表压缩成2维表  第2节 定性资料的对数线性模型分析  第3节 定性资料的logistic回归分析    第4篇 试验设计与回归分析 第1章 回归分析的种类与简单回归分析  第1节 回归分析的任务和种类  第2节 直线回归与相关分析的概念和要点  第3节 直线回归与相关分析的计算和应用  第4节 具有重复试验数据的直线回归分析  第5节 加权直线回归的应用──半数效量的估计  第6节 可直线化的简单曲线拟合  第7节 一般多项式曲线拟合  第8节 非线性曲线拟合  第9节 再用1个实例复习曲线拟合的全过程 第2章 多元线性回归分析  第1节 多元线性回归分析的概述  第2节 应用举例  第3节 变量筛选方法  第4节 回归诊断  第5节 用各种筛选变量方法编程的技巧  第6节 与回归分析有关的重要统计术语和统计量的注解 第3章 协方差分析  第1节 协方差分析的概述  第2节 一元协方差分析应用举例  第3节 多元协方差分析应用举例 第4章 直接试验设计与回归分析  第1节 回归分析试验设计方法的发展  第2节 各因素水平数相同时的直接试验设计  第3节 各因素水平数不同时的直接试验设计  第4节 关于直接试验设计的几点说明与解释  第5节 直接试验设计的SAS源程序  第6节 直接试验设计SAS程序的运行  第7节 应用举例  第8节 设计矩阵均匀性函数简介    第5篇  生 存 分 析析 第1章 基本概念  第1节 生存资料的特点  第2节 生存时间函数  第3节 生存分析方法的分类 第2章 生存资料的非参数统计方法  第1节 统计描述与非参数分析概述  第2节 用LIFETEST过程实现统计计算  第3节 生存资料非参数统计方法中的有关计算公式 第3章 COX模型回归分析  第1节 COX回归模型(半参数回归模型)  第2节 COX模型回归分析应用举例 第4章 参数模型回归分析  第1节 参数回归模型  第2节 参数模型回归分析应用举例    第6篇 多 元 统 计 分 析 第1章 主成分分析  第1节 基本概念与数据结构  第2节 主成分的表达式与性质  第3节 用PRINCOMP过程实现主成分分析  第4节 合成资料的主成分分析 第2章 因子分析  第1节 基本概念  第2节 因子模型  第3节 因子分析的基本定理与任务  第4节 用FACTOR过程实现因子分析 第3章 对应分析  第1节 方法的概述  第2节 对应分析中的变量变换方法  第3节 用CORRESP过程实现对应分析 第4章 聚类分析  第1节 方法的概述  第2节 用VARCLUS过程实现变量聚类分析  第3节 用CLUSTER过程实现样品聚类分析  第4节 用FASTCLUS过程实现大样本样品聚类分析  第5节 用ACECLUS过程对需作样品聚类分析的资料进行预处理  第6节 用SAS/GRAPH模块绘制样品聚类图的SAS程序 第5章 判别分析  第1节 离散(定性)资料的判别分析  第2节 定量资料的逐步判别分析(考虑变量筛选)  第3节 一般判别分析(不考虑变量筛选) 第6章 典型相关分析  第1节 方法的概述  第2节 用CANCORR过程实现典型相关分析         全书附录 附录1 各篇练习题及参考答案   第1篇练习题   第2篇练习题   第3篇练习题   第4篇练习题   第5篇练习题   第6篇练习题   第1篇参考答案   第2篇参考答案   第3篇参考答案   第4篇参考答案   第5篇参考答案   第6篇参考答案 附录2 统计用表及产生这些表所需的SAS程序   2.1 统计用表   表2.1 t、r、rs、χ2临界值   表2.2 F临界值(方差齐性检验用,双侧概率为0.05)( )   表2.3 F临界值(方差分析用,单侧概率为0.05)( )   表2.4 F临界值(方差分析用,单侧概率为0.01)( )   2.2 产生上述表所需的SAS程序   产生t临界值表所需的SAS程序━TLJZ.PRG   产生χ2临界值表所需的SAS程序━KFLJZ.PRG   产生F临界值表所需的SAS程序━FLJZ.PRG 附录3 估计样本含量的常用公式 附录4 三个常用的离散型随机变量的概率 附录5 与SAS软件有关的内容   5.1 SAS表达式简介   5.2 SAS函数简介   5.3 SAS语句简介   5.4 SAS过程简介   5.5 SAS命令简介   5.6 SAS中宏知识简介 附录6 中英文对照索引 附录7 参考文献
《数据分析方法》 习题:2.4(Page79) 计算2班:陈磊 数据分析报告(线性回归、SAS)全文共25页,当前为第1页。 报告目录 问题重述 化妆品销售与人数、月收入关系 数据导入 本题数据导入、数据导入的几种方法 执行过程 proc reg、model语句 执行结果 方差分析、参数估计 多元线性回归设置 数据分析报告(线性回归、SAS)全文共25页,当前为第2页。 习题2.4题目 某公司管理人员为了解某化妆品在一个城市的月销量Y(单位:箱)与该城市中 适合使用该化妆品的人数 1(单位:千人)以及他们人均月收入 2(单位:元)之间 的关系,在某个月中对15个城市作了调查,得到上述各量的观测值如表2.12所示。 表2.12 化妆品销售数据(部分数据) ---------------------------------------------------------------------------- 城市 销量(y) 人数( 1) 收入( 2 ) ---------------------------------------------------------------------------- 1 162 274 2450 2 120 180 3254 3 223 375 3802 4 131 205 2838 ………………………………………………. ---------------------------------------------------------------------------- 假设Y与 1, 2之间满足线性回归关系 = 0+ 1 1+ 2 2+ , =1,2,…,15 其中 独立同分布于 (0, 2). 数据分析报告(线性回归、SAS)全文共25页,当前为第3页。 导入数据 title'《数据据分析方法》_习题2.4_page79';/*标题*/ data mylib.ch2_2_4; /*在逻辑库mylib中创建数据集ch2_2_4*/ input y x1 x2 @@; /*@@表示可连续输入*/ cards; /*开始输入数据*/ 162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 ; /*遗漏数据用"."表示,否则对应的这组数据会被自动删除*/ run; /*run语句用于说明处理当前程序步中该语句之前的所有行*/ .:SAS逻辑库名最多为8个字符,数据集的名称最多为32个字符。 ?:若去掉@@,上边能导入哪些数据? 数据分析报告(线性回归、SAS)全文共25页,当前为第4页。 导入数据 ——若干方法 1、在编辑框中输入数据,cards 2、从文件读入数据,infile infile'F:\mylib\ch2_2_4.txt'; 3、导入外部数据<1>向导导入;<2>import语句导入 proc import…… 4、已经建立过数据集 proc reg data=mylib.ch2_2_4; 数据分析报告(线性回归、SAS)全文共25页,当前为第5页。 执行过程1 proc reg; /*调reg过程用*/ model y=x1 x2; /*因变量为y,自变量为x1、x2*/ run; Model语句:用于定义模型中因变量、自变量、模型选项及结果输出选项。常 用选项有Selection=,指定变量选择方法;NOINT,表示在模型中不包括常数项; STB,输出标准化的回归系数;CLI,输出单个预测值置信区间;R,进行残差分 析,并输出分析结果。 格式:MODEL 因变量名=自变量名列/[选项] 例:model y=x1 x2 / selection=stepwise; /*逐步回归*/ 数据分析报告(线性回归、SAS)全文共25页,当前为第6页。 执行结果1 ——参数估计表 最小二乘估计: =( 0, 1, 2)=(3.45261,0.49600,0.00920) 回归方程:Y=3.45261+0.49600 1+0.00920 2 置信区间: 0.97512=2.17881(通过查t分布表得到) 1=0.496+/-2.179*0.00605,得出(0.4828,0.5092) 2=0.0092+/-2.179*0.00096811,得出(0.0071,0.0113) 数据分析报告(线性回归、SAS)全文共25页,当前为第7页。 执行结果1 ——方差分析表 误差方

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值