线性回归csv数据集_数据科学的基石:统计学、机器学习、计算机科学(三)——线性回归...

本文深入探讨了线性回归的基础,包括损失函数、期望风险、经验风险与结构风险最小化。从机器学习和统计学两个角度阐述了线性回归模型的构建与评估,强调了损失函数在模型优化中的作用,并介绍了如何通过最小化经验风险来寻找最佳模型。此外,还提到了防止过拟合的结构风险最小化策略。
摘要由CSDN通过智能技术生成
数据科学家们常说,所有的模型都是错的,但是,其中一些是有用的。如果一个“有用”的模型能够过滤掉数据中哪些不重要的细枝末节,抓住其主要的内在关系,从而帮助我们更好地理解数据。很多情况下,线性回归就是这样一个“有用”模型,本篇我们从机器学习以及统计学两个角度去探索《线性回归》。以下内容来自于笔者阅读各类数据科学相关书籍的读书摘录笔记,希望能够对数据分析行业从业者起到点滴帮助,由于笔者水平能力有限,整理的不妥之处请各位大佬批评指正!如涉版权问题请及时联系删除,谢谢!欢迎转发分享学习!——2019年12月15日

目录

  • 数据科学概述
  • 数学基础:线代、概率论、微积分
  • 线性回归
  • 逻辑回归
  • 算法的求解
  • 计量经济学的启示
  • 监督学习
  • 无监督学习
  • 生成式模型
  • 分布式机器学习
  • 神经网络与深度学习
  • Python利器:Pandas、StatsModel、Sklearn、Tensorflow、XGBoost、Pyspark
  • 特征工程:滑动窗口、时域特征、频域特征

线性回归概述

从初中学过的二元一次方程看起,因变量与自变量的关系可以用一条直线表示(这就是“线性”的含义)

我们所谓的建模过程,其实就是找到一个模型,最大程度的拟合我们的数据。 在简单线回归问题中,模型就是我们的直线方程:y = ax + b 。

92cbb57b2ae1f68210fcd4df30b66be1.png

数学函数理论的世界是精确的:代入一个自变量就能得到唯一的因变量。但现实世界中的数据就像这个散点图,我们只能尽可能地在杂乱中寻找规律。用数学的模型去拟合现实的数据,这就是统计。统计不像数学那么精确,统计的世界不是非黑即白的,它有“灰色地带”,但是统计会将理论与实际间的差别表示出来,也就是“误差”。因此,统计世界中的公式会有一个小尾巴 ,用来代表误差,即:

571b174f6300d0cf554b5a36e60a2f84.png

损失函数

要想最大的拟合数据,本质上就是找到没有拟合的部分,也就是损失的部分尽量小,就是损失函数(loss function)(也有算法是衡量拟合的程度,称函数为效用函数(utility function)):

d874b203b2267d21d360483310297e1a.png

因此,推导思路为:

通过分析问题,确定问题的损失函数或者效用函数;然后通过最优化损失函数或者效用函数,获得机器学习的模型

近乎所有参数学习算法都是这样的套路,区别是模型不同,建立的目标函数不同,优化的方式也不同。

回到简单线性回归问题,目标:已知训练数据样本

79832d22f6ee58d5cac593f89d2e2859.png

cc69c9f9107f9c75c6275d9ce60c9ab8.png

,找到

cd7bda3cf3645ea8171a08ed25637a18.png

e3f34d964455e0f796b28b16547d8954.png

的值,使

c10b4c638e961a5520d7c05a4ad8844e.png

尽可能小

这是一个典型的最小二乘法问题(最小化误差的平方)

通过最小二乘法可以求出a、

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值