R语言
文章平均质量分 78
数据分析实操
Bayes1b
多喝热水
展开
-
R语言|计算统计作业练习2
下面在此分享一下一次课程作业的答题思路及个人答题结果。原创 2023-12-06 23:54:58 · 428 阅读 · 1 评论 -
R语言|计算统计作业练习1
对于law数据计算GPA和 LSAT的相关系数的偏差,并计算经过偏差调整后的相关系数以及相关系数的置信区间原创 2023-12-06 23:49:48 · 409 阅读 · 1 评论 -
R语言|基于广义线性模型的评分卡模型
近年来,随着科学技术的发展以及人们物质水平生活的升高,手机在我们生活中扮演着越来越重要的角色,因此,出门在外手机就成为了一项必需品。其中,WOE越大,代表着该数据区间中因变量为1的比例越高,即客户违约的可能性越搞。但是由于直接凭IV值大小选取,可能避免不了多重共线性的影响,在这里我们先将IV值最小的10个变量进行剔除,后续再选择用逐步回归的方法选择变量。考虑到变量过多,可以采取逐步回归的方法,自动从可供选择的变量中选取最重要的几个变量,每次逐个引入自变量时,要保证其偏回归平方和经检验后是显著的。原创 2023-05-13 17:36:50 · 505 阅读 · 3 评论 -
R语言|Employee Future Prediction数据集分析报告
SMO的思想类似于坐标上升算法,我们需要优化一系列的参数值,但是每次都会选择尽量少的参数来优化,再不断迭代直到函数收敛到最优值,相当于如果算法判断某个参数不合理,那么根本就不会取运行那个选择进而增大计算量。同时我们建模时没有进行特征选择,有些变量对拟合效果可能是副作用或者无作用的,且过多变量影响运算效率,可以运用caret包的rfe函数执行递归的特征选择过程,进而得到最好的结果。可以看出,在树的数量大于100时模型就基本上较为稳定,因此在保证效能的情况下,我们可以减少改变决策树的数量,减少运行时间。原创 2023-05-13 18:43:04 · 1235 阅读 · 5 评论 -
R语言|基于线性回归模型
从图中可知,航线价格与里程、替代航线数目、替代航线平均价格、替代航线平均运量、替代航线平均里程、运量之间的相关关系系数值呈现出显著性。价格与运量之间有着显著的负相关关系。每一个样本对应一条点到点、带有方向的正在运营的航线每天的运营数据,包括航线的出发地、到达地、里程、替代航线数目、替代航线平均价格、替代航线平均运量、替代航线平均里程、价格以及运量九个方面。由表知,替代航线平均价格、替代航线数目、替代航线平均运量、运量、里程的标准化系数分别为:0.371、-0.088、0.105、-0.079、0.499。原创 2023-05-13 17:44:20 · 554 阅读 · 0 评论