39.绘制本垒打与击球平均数的散点图。
40.非正式地说,是否有证据表明变量之间存在关系?
43.根据击球平均数对本垒打进行回归。获得的正态概率图
此回归的标准化残差。正态概率图是否表示可接受的正态性,或是否存在偏度?如果倾斜,什么类型的倾斜?
44.绘制残差与拟合值的曲线图(拟合值指y)你看到了什么样的图案?关于回归假设,这表明了什么?
45.根据本垒打的自然记录,对击球时的ln本垒打进行回归平均值。从该回归中获得标准化残差的正态概率图。正态概率图是否表示可接受的正态性?
46.绘制残差与拟合值的曲线图。你看到了有力的证据吗已违反恒定方差假设?(请记住避免罗夏效应)。因此,得出结论,假设是有效的。
59.列出异常值。所有这些异常值有什么共同点?对于奥兰多·帕尔梅罗,解释为什么他是一个局外人。
接下来,对棒球数据集进行子集,以便我们与至少有100个击球手的击球手一起工作。将此数据集用于练习62-71。
62.我们有兴趣调查num之间是否存在线性关系-玩家偷球被抓到的次数和偷球的数量。构建散点图,以“抓到”作为响应。是否存在线性关系的证据?
63.根据散点图,是否需要转换为线性?为什么还是为什么
64.对玩家被抓到偷东西的次数与被抓到偷东西的次数进行回归玩家盗垒的数量。
65.找出并解释能告诉你数据与模型拟合程度的统计数据。
66.预测一名球员偷盗被抓次数的典型错误是什么,考虑到他偷来的基地数量?
对于练习72-85,使用谷物数据集。
72.我们有兴趣根据钠含量预测营养评级。构建
适当的散点图。请注意,存在一个异常值。识别这个异常值。解释为什么这种谷物是一种异常值。
73执行适当的回归。
74.忽略异常值。执行相同的回归。比较坡度和坡度的值两个回归的y截距。
75.使用散点图,解释为什么y截距变化大于斜率,而忽略了utlier
线性回归有关的作业
打开棒球数据集,这是一个收集了331名2002年参加美国棒球联赛的棒球运动员的击球统计数据的集合,可以在图书网站上找到。www.DataMiningConsultant.com。假设我们感兴趣的是平均击球率和一名球员打出的本垒打数之间是否存在关系。例如,一些球迷可能会争辩说,那些打了很多本垒打的人也会打很多三振。因此,他们的击球率较低。让我们来看看,用一个回归的数字,全垒打对球员的打击平均数(点击数除以打击数)。由于棒球击球率的平均值往往是高度可变的低数量的at,我们限制我们的数据集,以那些在2002年赛季至少有100个at的球员。这使得我们有209名球员
图3-9 残差和拟合值之间的曲线
图 3-13 去的参数后进行的参数与拟合值的曲线图
图3-14 残差图
图 3-27适当拟合数值的效果图
图 3-30 删除了奇异点的拟合图
[1] Gotelli, N. J. 2008. A Primer of Ecology . Sunderland, MA: Sinauer.
[2] Messier, F. 1994. Ungulate population models with predation: A case study with North American moose. Ecology 75:478-488.
[3] Pervez, A., and Omkar, A. 2005. Functional responses of coccinellid predators: illustration of a logistic approach. Journal of Insect Science 5:1-6.
[4]基本R绘图 | R语言教程 (pku.edu.cn) 重要的画图方法
[5]代码在线高亮工具 | 将高亮美化的代码一键粘贴到 Word 或 OneNote 中 (highlightcode.com)
[6] R语言信用评分卡:数据分箱(binning) - 知乎 (zhihu.com)
[7] (6条消息) r k-means 分类结果_R语言信用评分卡:数据分箱(binning)_weixin_39972019的博客-CSDN博客