线性回归、最小二乘、正态分布代码合集

Tomorrowave

已于 2023-01-17 14:33:58 修改

阅读量124

点赞数

分类专栏：数据分析文章标签：回归逻辑回归

于 2022-07-21 23:52:10 首次发布

本文链接：https://blog.csdn.net/m0_58381606/article/details/125921772

版权

数据分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了回归分析的基本概念，包括利用线性模型对自变量和因变量间的关系进行建模，以进行预测。线性回归模型中，一维线性模型展示了截距项和斜率的概念，并通过最小二乘法进行参数估计。此外，还讨论了正态分布及其在预测中的应用。

摘要由CSDN通过智能技术生成

什么是回归分析

给你一系列的有着联系的数据，有自变量和因变量这样内在联系的，然后通过对这些数据进行处理，利用数学方法进行线性方程建模，然后最终通过你建立的模型，对未提供给的自变量预测

那什么是预测？

所谓预测，就是利用一个训练完毕的模型，根据输入的自变量获得对应的输出。在预测任务中，如果模型可以准确地提供预测，那么是什么形式并不重要，而如果的形式非常复杂且难以解释，我们可以将之称为黑盒模型(Black Box)。
举一个例子，假设Xi 是某个病人的血样特征，测量了病人使用药物后出现严重不良反应的风险，那么如果存在一个模型可以很好地通过Xi 以预测Yi ，那自然是再好不过的事了。此时，模型的形式、变量之间的关系在正确预测面前都显得不那么重要。

什么是推断？

在很多情况下，我们对当 X的变化时如何影响Y 更感兴趣，此时，我们估计模型的目的不是为了预测，而是想明白两者之间的关系

线性回归模型

$y = x + u$
进一步

$y=a_0+\sum^{n}_{i=1}a_ix_i$

一维线性模型

$y=a_0+a_1x_1+u$
$a_0 是截距项，可以理解为x=0时候 y的期望，a_1可以理解为x每增加一个单位，y平均增a_1个单位$

最小二乘法

import statsmodels.api as sm

model = sm.OLS(endog, exog=None, missing='none', hasconst=None, **kwargs)

'''参数
endog: array_like
	一个一维的因变量。
exog: array_like
	默认情况下，截距是不包含的，应该由用户添加。
	使用 statsmodels.tools.add_constant 添加。
missing: str
	可用的选项有 'none'、'drop' 和 'raise'。如果 'none'，则不进行 nan 检查。如果 'drop'，则丢弃任何使用 nan 的观察值。如果 'raise'，则抛出一个错误。默认的是 'none'。
hasconst: None or bool
	指示RHS是否包含用户提供的常量。如果为True，则不检查常数，k_constant设置为1，并计算所有结果统计信息，就像存在常数一样。如果为False，则不检查常数，并将k_constant设置为0。
**kwargs
	使用公式接口时用来设置模型属性的额外参数。
'''

正态分布

from scipy.stats import norm
import numpy as np
# 生一个均值为1，方差为2的正态分布
distribution=norm(loc=1.0, scale=2.0)
# 显示均值和方差
print(distribution.stats())
# 进行采样
samples=distribution.rvs(size=1000)
# 样本的均值和标注差
print(np.mean(samples), np.std(samples))
# 对数据进行拟合
print(norm.fit(samples))

Tomorrowave

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
线性回归、最小二乘、正态分布代码合集

给你一系列的有着联系的数据，有自变量和因变量这样内在联系的，然后通过对这些数据进行处理，利用数学方法进行线性方程建模，然后最终通过你建立的模型，对未提供给的自变量预测所谓预测，就是利用一个训练完毕的模型，根据输入的自变量获得对应的输出。在预测任务中，如果模型可以准确地提供预测，那么是什么形式并不重要，而如果的形式非常复杂且难以解释，我们可以将之称为黑盒模型(Black Box)。
复制链接

扫一扫