简单易懂的人工智能系列:回归分析

变量之间的非严格函数关系

像下图中,变量X,Y是存在严格的函数关系的(y = x + 0.3):

而现实世界中,通常是变量X,Y之间存在某种密切的联系,但并非严格的函数关系(非确定关系),如下图:

通过接近X,Y之间的函数关系的关系来预测X时Y的取值,就是回归分析。这里的 1.7 就是 (误差)

 

回归

回归是处理两个或者两个变量以上相互依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述。

 

回归的起源:

散点图如下:

线性与非线性

线性(Liner)的严格定义是一种映射关系 ,其映射关系具有可加性和齐次性。通俗的理解就是两个变量之间存在一次方函数关系,在平面坐标中表示为一条直线。不满足线性即为非线性(non-linear)

       

线性回归

线性回归(Linear Regression):在回归分析中,如果自变量和因变量之间存在着线性关系 ,则被称作线性回归。如果只有一个因变量和一个自变量,则被称作一元线性回归(下图面积和价格关系);如果有一个因变量和多个自变量,则被称作多元回归(面积、房龄和价格关系)。

回归模型的一般形式:

比如下图为一元回归模型,实际我们不知道随机误差(扰动项 1.7),建模的时候会考虑,预测的时候直接使用的是 y = x + 0.3

线性回归基本假设(重要)

使用线性回归之前务必检验这些基本假设,否则得到的模型会不尽人意。

建立回归模型的流程

我们以预测房价为例(波士顿)

第一步,需求分析明确变量

了解相关需求,明确场景,清除需要解释的指标(因变量),并根据相关业务知识选取阈值有关的变量作为解释变量(自变量)

通常按照我们对房屋价格的认识,认为该变量和以下因素(自变量)相关:

面积,位置,房龄,户型,周围环境,便利程度,邻居,学校....

第二步,数据加工处理

根据上一步分析得到的解释变量(自变量),去搜集相关的数据(时序数据,截面数据等),对得到的数据进行清洗、加工、并根据数据情况调整解释变量,并判断是否满足基本假设。

数据情况:共收集到506条有效数据

对于面积,学校,未有相关信息,如果实际上的确有关系的解释变量却未有信息,这样就会导致随机误差变大

核查数据情况是否满足基本假设中和解释变量相关的部分:

第三步,确定回归模型

了解数据集,使用绘图工具绘制变量样本散点图,或者使用其他分析工具分析变量间的关系,根据结果选择回归模型,如:线性回归模型,指数形回归模型等。

在某些领域我们 可以做一些 借鉴,比如,模型(C-D(柯布-道格拉斯)生产函数):

其中,得到的模型为:

对模型取对数使得模型化简:

结果为:

第四步,模型参数估计

第五步,模型检验优化

第六步,模型部署应用

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

薛定谔的猫96

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值