频数表&频率表

本文介绍了频数表和列联表的基本概念,包括它们在数据分析中的作用。频数表用于探索类别型变量,可以使用table()和xtabs()函数创建。列联表分析关注不同属性之间的独立性,可通过prop.table()和margin.table()进一步分析。此外,还提及了gmodels包中的CrossTable()函数和ftable()函数,提供了更丰富的统计信息和紧凑的输出格式。
摘要由CSDN通过智能技术生成

一。基本概念

1.频数表是将数据集按照某个特定分类(分组)时观察每个类/组中数据出现次数的表;

2.列联表是观测数据按两个或更多属性/定性变量分类时所列出的频数分布表,是由两个以上的变量进行交叉分类的频数分布表;

3.频数也称“次数”,对样本数据按某些属性进行分组,统计出各个组内含个体的个数,就是频数;

4.一维列联表就是频数分布表;

5.列联表分析的基本问题是:观察各属性之间是否独立,做简单的描述性统计

二。创建频数表

频数表用于探索类别型变量,常用table()和 xtabs()来创建频数表:

1.table()使用N个类别变量(因子)创建一个N维列联表

  • ...:一个或多个可以被解释为factor的对象
  • exclude:如果数据中不包括NA,切useNA未指定,则useNA="ifany"(有疑惑)
  • useNA:table()默认忽略NA,要在频数统计中将NA视为一个有效类别,设定useNA="ifany"
  • dnn:在结果中给维度的命名,向量形式
  • deparse.level:取值为0(dnn名称为空),1(以dnn命名),2(deparse the argument)

2.xtabs()根据一个公式(~var1+var2+...+varN)创建一个N维列联表。

  • formula:公式,要进行交叉分类的变量应出现在公式的右侧,即 ~ 符号的右方,以+ 作为分割符。
  • data:包括有公式中变量名的矩阵或数据框
  • subset:指定data中观测的子集
  • sparse:指定结果是否为sparse matrix
  • na.action:一个函数,指定当包括NA时发生什么。若未指定且addNA为TRUE,则结果为na.pass

 prop.table()以列联表作为参数,以margins定义的边际把列联表中的频数表示为比例关系。

margin.table()以列联表作为参数,以margins定义的边际列表来计算频数的和。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
皮尔逊频率是一种用于统计数据分析的工具,用于查找变量之间的关系和相关性。其中,kp值是一种用于度量两个变量之间线性关系强度的指标。 查找kp值的步骤如下: 1. 首先,确定需要分析的两个变量,并收集相关的数据。这两个变量可以是数值型或者顺序型的数据。 2. 将这两个变量的取值范围进行分组,得到频率频率是由两个变量的所有可能取值组合所形成的格,其中每个单元格示对应取值组合出现的次数。 3. 在频率中,查找两个变量的边际分布。边际分布指的是在每个变量上的取值频率。 4. 根据频率,计算两个变量的联合分布,即每个变量取值组合的频率除以总样本数。 5. 计算每个变量的期望频数,即在假设两个变量之间独立的情况下,期望每个取值组合的频数。 6. 根据联合分布和期望频数,计算kp值。kp值的计算公式为kp = (实际频数 - 期望频数) / (总样本数 * (最小边际频率 - 1))。 7. 根据kp值的大小,可以判断两个变量之间的线性关系强度。当kp值接近于0时,说明两个变量之间没有线性关系;当kp值接近于1时,说明两个变量之间具有强的线性关系。 总结起来,通过皮尔逊频率查找kp值可以帮助我们了解两个变量之间的线性关系强度。这个值可以作为统计分析的重要参考,帮助我们做出更准确的决策。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值