R语言进行相关的操作

实践分析

22. 哪些变量是绝对的,哪些是连续的?

23. 使用软件,构建数据集的前10条记录的表,以获得对数据的感觉

24. 调查我们是否有任何相关的变量。

25. 对于每个类别数据变量,构建一个变量的柱状图,覆盖目标变量。必要时标准化。

a.讨论每个变量与目标变量之间的关系(如果有的话)。

b.在我们所使用的任何数据挖掘类别数据模型中,您希望哪些变量具有重要的作用?

26. 对于每一对类别数据变量,构建一个交叉列表。讨论你的显著成果。

27. (如果你的软件支持的话。)构建一个类别数据变量的网络图。对图表进行微调,以便出现有趣的结果。讨论你的发现。

28. 根据您的EDA报告该数据集中是否存在异常字段,这些字段是什么,以及我们应该做些什么。

29. 报告每个数值变量的平均值、中位数、最小值、最大值和标准偏差。

30.构建每个数值变量的直方图,覆盖目标变量收入。必要时标准化。

a.讨论每个变量与目标变量之间的关系(如果有的话)。

b.在我们所使用的任何数据挖掘类别数据模型中,您希望哪些变量具有重要的作用?

31. 对于每一对数值变量,构建变量的散点图。讨论你的显著成果。

32. 根据到目前为止的EDA,确定值得进一步研究的数据集中有趣的记录子组。

33. 对一个数值变量应用装箱。这样做的方式,以最大限度地发挥所创建的类的效果(遵循文本中的建议)。现在就这样做一种最小化阶级影响的方法,以减少阶级之间的差异。发表评论。

34. 请参阅前面的练习。对这个变量应用其他两个装箱方法(相同宽度和相同记录数量)。比较结果并讨论差异。你喜欢哪种方法?

35. 从以上练习中总结你的显著的EDA发现,就像你在写报告一样。

1.2 试验平台

图4-4 找到前十条数据的年龄和性别与收入之间的关系探索

图4-5 教育与收入之间的关系探索

上述的教育图中,上面是频次图,下面是频率图

图4-6 探究不同教育程度的收入等级差异

 

图4-7 探索受教育年限对收入的影响

 

图4-8 探究婚姻状况对收入的影响

可以发现,married-civ-spouse(已婚平民配偶)和married-AF-spouse(已婚军属)类型的收入>50k群体占比大。

 

                   

box_age <- ggplot(adult1, aes(x = class, y = age ,fill = class))+

  geom_boxplot()+theme_bw()+labs(x = 'class', y = 'age')

box_edu <- ggplot(adult1, aes(x = class, y = education.num ,fill = class))+

  geom_boxplot()+theme_bw()+labs(x = 'class', y = 'education.num')

box_work <- ggplot(adult1, aes(x = class, y = hours.per.week ,fill = class))+

  geom_boxplot()+theme_bw()+labs(x = 'class', y = 'hours.per.week')

图4-9  性别、年龄、受教育年限、每周工作时间与收入关系图

从图中大致可以发现,收入高的群体一般男性居多、年龄较大、每周工作时间较长、受教育年限较长。

 

图4-21 某些变量的结果图

图4-12 部分展示图

[1] Gotelli, N. J. 2008. A Primer of Ecology . Sunderland, MA: Sinauer.

[2] Messier, F. 1994. Ungulate population models with predation: A case study with North American moose. Ecology 75:478-488.

[3] Pervez, A., and Omkar, A. 2005. Functional responses of coccinellid predators: illustration of a logistic approach. Journal of Insect Science 5:1-6.

[4]基本R绘图 | R语言教程 (pku.edu.cn) 重要的画图方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

matlab_python22

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值