数据分析
文章平均质量分 88
李未名001
数据分析师,有共享出行、互联网医疗、汽车等行业背景,主要研究机器学习、自然语言处理等方向。欢迎大家一起讨论学习数据科学知识~
展开
-
KNN 回归模型的认识与使用
KNN模型,是一种紧邻算法,也叫K紧邻(K-Nearest-Neighbor),在数据挖掘算法中是最简单并且基础的一种算法模型,在实际的运用中,不仅有分类方面的应用,也有回归方面的应用。本文从回归预测的角度出发,来介绍一下KNN算法。原创 2022-12-09 00:47:27 · 1947 阅读 · 1 评论 -
浅谈共线性的产生以及解决方法(下篇——来世)
浅谈共线性的产生以及解决方法(下篇——来世) 上篇对共线性问题的诊断以及消除做了详尽的介绍,那么如何与实际场景结合呢? (1)数据来源 该数据来源于《1994年统计摘要》1978-1993年的中国民航客运量统计数据。 (2)变量介绍 Y——民航客运量(万人) X1——国民收入(亿元) X2——消费额(亿元) X3——铁路客运量(万人) X4——民航线里程(万公里) X5——来华旅游入境人数(万人) 对数据进行多元线性回归模型的拟合,看下效果 我们可以根据方差膨胀因子判别多元线性模型是否存在共线性问题,上述原创 2020-10-29 23:48:04 · 1419 阅读 · 4 评论 -
浅谈共线性的产生以及解决方法(中篇——今生)
浅谈共线性的产生以及解决方法(下篇——今生) 上篇我们讲到共线性概念以及共线性问题存在时对模型的影响。那么如何对样本数据中存在的共线性问题进行诊断呢? 3 多重共线性的诊断方法 3.1 相关系数法 对于一个样本数据集,我们要了解解释变量,相关系数是一个重要的参数。假设样本中有x1x_{1}x1,x2x_2x2,x3x_3x3,…,xpx_pxp这些变量,两个变量间的相关系数: R=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2R=\frac{\sum_{i原创 2020-10-15 21:25:47 · 6403 阅读 · 2 评论 -
浅谈共线性的产生以及解决方法(上篇——前世)
标题:浅谈共线性的产生以及解决方法(上篇——前世) 1. 多元线性回归模型 在线性相关条件下,两个或两个以上解释变量对一个被解释变量的数量变化关系,称之为多元线性回归分析,由多元线性回归分析得到的数学表达式称为多元线性回归模型。 一般我们认为,多元线性回归问题中涉及的数据由被解释变量Y和p个解释变量x1x_{1}x1,x2x_2x2,x3x_3x3,…,xpx_pxp的n次观测组成,如下表所示: 多元线性回归模型的一般形式为:y=β0β_0β0+β1原创 2020-10-07 19:44:59 · 2404 阅读 · 6 评论