diabetes数据集_R语言在BRFSS数据中可视化分析探索糖尿病的影响因素

原文链接:拓端数据科技 / Welcome to tecdat​tecdat.cn数据集:行为危险因素监视系统数据摘要:该数据集是来自全美约40万份与健康相关主题的问卷调查。BRFSS始于1980年代,并已通过问卷调查在美国用于监测普遍的疾病。该研究是追溯性的,而不是设计性的实验,因此尽管可以推断出相关性,但不能因果关系。数据集中的特征既是连续的又是分类的。目标:探索性别,体重和年龄之间的相关性第...
摘要由CSDN通过智能技术生成

原文链接:

拓端数据科技 / Welcome to tecdat​tecdat.cn
19e21d996f92caa5f0dbe51bea3f730f.png

数据集:行为危险因素监视系统数据摘要:该数据集是来自全美约40万份与健康相关主题的问卷调查。BRFSS始于1980年代,并已通过问卷调查在美国用于监测普遍的疾病。该研究是追溯性的,而不是设计性的实验,因此尽管可以推断出相关性,但不能因果关系。

数据集中的特征既是连续的又是分类的。目标:探索性别,体重和年龄之间的相关性

第0部分:设置


  1. library(ggplot2)

  2. library(dplyr)

  3. library(Rgraphviz)

  4. library(knitr)

  5. library(grid)

  6. library(gridExtra)


load("brfss2013.RData")


  1. # group and count a feature with discrete values

  2. feature_vcounts <- function(df, f) {

  3. df %>%

  4. group_by_at(f) %>%

  5. count()}

  6. # method for binning values

  7. bin_min_sample <- function(p) {

  8. n = 10

  9. a = 10/p

  10. b = 10/(1-p)

  11. max(c(a,b))}

  12. # create a new df for simulating binom probability distribution

  13. binom_prob_df <- function(df, f, target) {

  14. new_df <- feature_vcounts(df,f)

  15. new_df$n[new_df[f] == target]/sum(new_df$n)}

  16. # filtering df with subgroup value

  17. subgroup_df <- function(df,f, group) {

  18. filter(df,df[f]==group)}

  19. # calc the vector probability

  20. binom_prob_vec <
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值