作者|Nature
出品|AI机器思维
人类生活的现实社会经常遇到分类与预测的问题,目标变量可能受多个因素影响,根据相关系数可以判断影响因子的重要性。 正如一个病人得某种病是多种因素影响造成的。 房价的高低也是受多个因素影响的,如房子所处的城市是一线还是二线,房子周边交通方便程度如通不通地铁,房子周边学校和医院等,这些都影响了房子的价格。 医学领域根据自变量以及某个阈值判断病因归属。 生物领域根据父辈的基因经过回归分析判断对子辈的影响。 今天给大家通过案例讲讲回归分析,回归分析在经济、社会学、医学、生物学等领域得到了广泛的应用,这种技术最早可以追溯到达尔文(Charles Darwin)时期。 达尔文的表弟Francis Galton致力于研究父代豌豆种子尺寸对子代豌豆尺寸的影响,采用了回归分析。 回归分析对人体健康研究也可以重要,病因分析。 19世纪高斯系统地提出最小二乘估计,从而使回归分析得到蓬勃发展。 目前
回归分析的研究范围可以分为如下几个部分组成:
线性回归: 一元线性回归、多元线性回归和多个因变量与多个自变量的回归。
回归诊断: 通过数据推断回归模型基本假设的合理性、基本假设不成立时对数据的修正、回归方程拟合效果的判断以及回归函数形式的选择。
回归变量的选择: 根据什么标准选择自变量和逐步回归分析方法。
参数估计方法: 偏最小二乘回归、主成分回归和岭回归。
非线性回归: 一元非线性回归、分段回归和多元非线性回归。
定性变量的回归: 因变量含有定性变量和自变量含有定性变量。 现实中常用的回归分