原文链接:
拓端数据科技 / Welcome to tecdattecdat.cn![19e21d996f92caa5f0dbe51bea3f730f.png](https://img-blog.csdnimg.cn/img_convert/19e21d996f92caa5f0dbe51bea3f730f.png)
数据集:行为危险因素监视系统数据摘要:该数据集是来自全美约40万份与健康相关主题的问卷调查。BRFSS始于1980年代,并已通过问卷调查在美国用于监测普遍的疾病。该研究是追溯性的,而不是设计性的实验,因此尽管可以推断出相关性,但不能因果关系。
数据集中的特征既是连续的又是分类的。目标:探索性别,体重和年龄之间的相关性
第0部分:设置
library(ggplot2)
library(dplyr)
library(Rgraphviz)
library(knitr)
library(grid)
library(gridExtra)
load("brfss2013.RData")
# group and count a feature with discrete values
feature_vcounts <- function(df, f) {
df %>%
group_by_at(f) %>%
count()}
# method for binning values
bin_min_sample <- function(p) {
n = 10
a = 10/p
b = 10/(1-p)
max(c(a,b))}
# create a new df for simulating binom probability distribution
binom_prob_df <- function(df, f, target) {
new_df <- feature_vcounts(df,f)
new_df$n[new_df[f] == target]/sum(new_df$n)}
# filtering df with subgroup value
subgroup_df <- function(df,f, group) {
filter(df,df[f]==group)}
# calc the vector probability
binom_prob_vec <