数据统计分析中 y 和 x 的关系
- 线性关系:y = β * x
- 抛物线关系:y = β0 * x + β1 * x^2
- 对数关系:y = ln(x)
- 指数关系:y = e^x
- ...
主要内容
- 线性回归的模型、目标与算法
- 正则化方法:岭回归、LASSO算法、弹性网络
- 算法汇总:最小二乘法、极大似然估计、正则化的最小二乘法
扰动项就是不能被 X 解释的 Y 的变异,就是找不到解释的因素
简单线性回归的估计
import matplotlib.pyplot as plt
import os
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
os.chdir(r"D:\pydata")
#pd.set_option('display.max_columns', 8)
# 导入数据和数据清洗
# In[2]:
raw = pd.read_csv(r'creditcard_exp.csv', skipinitialspace=True)
raw.head()
# In[3]:
exp = raw[raw['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2',axis=1)
exp_new = raw[raw['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2',axis=1)
分出训练集和预测集
lm_s = ols('avg_exp ~ Income', data=exp).fit()
lm_s.summary()
OLS Regression Results
==============================================================================
Dep. Variable: avg_exp R-squared: 0.454
Model: OLS Adj. R-squared: 0.446
Method: Least Squares F-statistic: 56.61
Date: