线性回归csv数据集_数据科学的基石：统计学、机器学习、计算机科学（三）——线性回归...

最新推荐文章于 2024-05-03 21:33:11 发布

weixin_39554290

最新推荐文章于 2024-05-03 21:33:11 发布

阅读量498

点赞数

文章标签：线性回归csv数据集

本文深入探讨了线性回归的基础，包括损失函数、期望风险、经验风险与结构风险最小化。从机器学习和统计学两个角度阐述了线性回归模型的构建与评估，强调了损失函数在模型优化中的作用，并介绍了如何通过最小化经验风险来寻找最佳模型。此外，还提到了防止过拟合的结构风险最小化策略。

摘要由CSDN通过智能技术生成

数据科学家们常说，所有的模型都是错的，但是，其中一些是有用的。如果一个“有用”的模型能够过滤掉数据中哪些不重要的细枝末节，抓住其主要的内在关系，从而帮助我们更好地理解数据。很多情况下，线性回归就是这样一个“有用”模型，本篇我们从机器学习以及统计学两个角度去探索《线性回归》。以下内容来自于笔者阅读各类数据科学相关书籍的读书摘录笔记，希望能够对数据分析行业从业者起到点滴帮助，由于笔者水平能力有限，整理的不妥之处请各位大佬批评指正！如涉版权问题请及时联系删除，谢谢！欢迎转发分享学习！——2019年12月15日

数据科学概述
数学基础：线代、概率论、微积分
线性回归
逻辑回归
算法的求解
计量经济学的启示
监督学习
无监督学习
生成式模型
分布式机器学习
神经网络与深度学习
Python利器：Pandas、StatsModel、Sklearn、Tensorflow、XGBoost、Pyspark
特征工程：滑动窗口、时域特征、频域特征

线性回归概述

从初中学过的二元一次方程看起，因变量与自变量的关系可以用一条直线表示（这就是“线性”的含义）

我们所谓的建模过程，其实就是找到一个模型，最大程度的拟合我们的数据。在简单线回归问题中，模型就是我们的直线方程：y = ax + b 。

数学函数理论的世界是精确的：代入一个自变量就能得到唯一的因变量。但现实世界中的数据就像这个散点图，我们只能尽可能地在杂乱中寻找规律。用数学的模型去拟合现实的数据，这就是统计。统计不像数学那么精确，统计的世界不是非黑即白的，它有“灰色地带”，但是统计会将理论与实际间的差别表示出来，也就是“误差”。因此，统计世界中的公式会有一个小尾巴，用来代表误差，即：

损失函数

要想最大的拟合数据，本质上就是找到没有拟合的部分，也就是损失的部分尽量小，就是损失函数（loss function）（也有算法是衡量拟合的程度，称函数为效用函数（utility function））：

因此，推导思路为：

通过分析问题，确定问题的损失函数或者效用函数；然后通过最优化损失函数或者效用函数，获得机器学习的模型

近乎所有参数学习算法都是这样的套路，区别是模型不同，建立的目标函数不同，优化的方式也不同。

回到简单线性回归问题，目标：已知训练数据样本

、

，找到

和

的值，使

尽可能小

这是一个典型的最小二乘法问题（最小化误差的平方）

通过最小二乘法可以求出a、

最低0.47元/天解锁文章

weixin_39554290

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
线性回归csv数据集_数据科学的基石：统计学、机器学习、计算机科学（三）——线性回归...

数据科学家们常说，所有的模型都是错的，但是，其中一些是有用的。如果一个“有用”的模型能够过滤掉数据中哪些不重要的细枝末节，抓住其主要的内在关系，从而帮助我们更好地理解数据。很多情况下，线性回归就是这样一个“有用”模型，本篇我们从机器学习以及统计学两个角度去探索《线性回归》。以下内容来自于笔者阅读各类数据科学相关书籍的读书摘录笔记，希望能够对数据分析行业从业者起到点滴帮助，由于笔者水平能力有限，整理...
复制链接

扫一扫