简单易懂的人工智能系列：回归分析

最新推荐文章于 2024-06-24 10:55:55 发布

薛定谔的猫96

最新推荐文章于 2024-06-24 10:55:55 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42415326/article/details/104767477

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

变量之间的非严格函数关系

像下图中，变量X，Y是存在严格的函数关系的（y = x + 0.3）：

而现实世界中，通常是变量X，Y之间存在某种密切的联系，但并非严格的函数关系（非确定关系），如下图：

通过接近X，Y之间的函数关系的关系来预测X时Y的取值，就是回归分析。这里的 1.7 就是（误差）

回归

回归是处理两个或者两个变量以上相互依赖的定量关系的一种统计方法和技术，变量之间的关系并非确定的函数关系，通过一定的概率分布来描述。

回归的起源：

散点图如下：

线性与非线性

线性（Liner）的严格定义是一种映射关系，其映射关系具有可加性和齐次性。通俗的理解就是两个变量之间存在一次方函数关系，在平面坐标中表示为一条直线。不满足线性即为非线性（non-linear）

线性回归

线性回归（Linear Regression）：在回归分析中，如果自变量和因变量之间存在着线性关系，则被称作线性回归。如果只有一个因变量和一个自变量，则被称作一元线性回归（下图面积和价格关系）；如果有一个因变量和多个自变量，则被称作多元回归（面积、房龄和价格关系）。

回归模型的一般形式：

比如下图为一元回归模型，实际我们不知道随机误差（扰动项 1.7），建模的时候会考虑，预测的时候直接使用的是 y = x + 0.3

线性回归基本假设（重要）

使用线性回归之前务必检验这些基本假设，否则得到的模型会不尽人意。

建立回归模型的流程

我们以预测房价为例（波士顿）

第一步，需求分析明确变量

了解相关需求，明确场景，清除需要解释的指标（因变量），并根据相关业务知识选取阈值有关的变量作为解释变量（自变量）

通常按照我们对房屋价格的认识，认为该变量和以下因素（自变量）相关：

面积，位置，房龄，户型，周围环境，便利程度，邻居，学校....

第二步，数据加工处理

根据上一步分析得到的解释变量（自变量），去搜集相关的数据（时序数据，截面数据等），对得到的数据进行清洗、加工、并根据数据情况调整解释变量，并判断是否满足基本假设。

数据情况：共收集到506条有效数据

对于面积，学校，未有相关信息，如果实际上的确有关系的解释变量却未有信息，这样就会导致随机误差变大

核查数据情况是否满足基本假设中和解释变量相关的部分：

第三步，确定回归模型

了解数据集，使用绘图工具绘制变量样本散点图，或者使用其他分析工具分析变量间的关系，根据结果选择回归模型，如：线性回归模型，指数形回归模型等。

在某些领域我们可以做一些借鉴，比如，模型（C-D（柯布-道格拉斯）生产函数）：

其中，得到的模型为：

对模型取对数使得模型化简：

结果为：

第四步，模型参数估计

第五步，模型检验优化

第六步，模型部署应用

薛定谔的猫96

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
简单易懂的人工智能系列：回归分析

变量之间的非严格函数关系像下图中，变量X，Y是存在严格的函数关系的（y = x + 0.3）：而现实世界中，通常是变量X，Y之间存在某种密切的联系，但并非严格的函数关系（非确定关系），如下图：通过接近X，Y之间的函数关系的关系来预测X时Y的取值，就是回归分析。这里的 1.7 就是（误差）回归回归是处理两个或者两个变量以上相互依赖的定量关系的一种统计方法和技术，变...
复制链接

扫一扫

专栏目录

薛定谔的猫96 CSDN认证博客专家 CSDN认证企业博客

码龄6年

400: 原创

3万+: 周排名

31万+: 总排名

73万+: 访问

: 等级

8025: 积分

472: 粉丝

680: 获赞

80: 评论

4087: 收藏

私信

关注

热门文章

分类专栏

计算机网络 2篇
剑指offer 68篇
数据库 4篇
数学 1篇
Golang 4篇
开发工具 1篇
C/C++ 24篇
Python 83篇
Flask 3篇
Django 9篇
Vim 3篇
机器学习 18篇
git和github入门 5篇
量子通信和量子计算 1篇
操作系统 5篇
数据结构 6篇
计算机组成原理 7篇
算法 6篇
后端 30篇
前端 123篇
下载安装的教程 5篇
Linux运维 16篇
web 8篇
版本管理 7篇
爬虫 7篇
面试 23篇

最新评论

关于浏览器输入一个网址后页面经历的过程总结
2301_81025433: 1337798922388888888
Python数据分析基础技术之pandas（史上最全面）
Aphil_D: 我觉得DataFrame.unique()实现的效果比起“查询不重复的值”更像“统计值的种类”，.nunique()就是“统计值的种数”。
前端需要理解的 HTML 知识
海洋之心: HTML总结的很好，很适合新手学习
剑指 offer 数组算法题：最小的K个数
CSDN-Ada助手: 亲爱的博主，非常感谢您为我们分享了这篇题为"剑指offer数组算法题：最小的K个数"的博文。看到您的努力和奉献，我深感钦佩！您的文章让我深入了解了如何在数组中找到最小的K个数，我在阅读中得到了很多有价值的知识和见解。您的解题思路清晰、详细，并且给出了有效的算法解决方案，让我受益匪浅。基于您出色的表现，我相信您一定还有更多精彩的主题可以分享给我们。我热切期待您为我们带来下一篇可能创作的博客，相信您会给我们带来更多令人惊叹的内容！以下是我为您生成的下一篇可能创作的博客标题： "剑指offer字符串算法题：最长公共子序列" 希望这个主题能够激发您的创作灵感，并且让更多读者受益。期待能够在您的博客中找到更多宝贵的知识和见解。再次感谢您的付出和努力，期待您的下一篇精彩博文！加油！
Python数据分析基础技术之pandas（史上最全面）
running_13: 大佬，写的真棒！！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

薛定谔的猫96 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。