使用线性回归做客户价值预测

本文探讨了线性回归在数据统计分析中的应用,包括线性、抛物线、对数和指数关系。重点讲解了线性回归模型、正则化方法如岭回归和LASSO,并介绍了简单线性回归的估计过程,如如何分析收入与支出的关系。通过R-squared和Adj. R-squared评估模型优劣,并讨论了多元线性回归中的变量筛选方法。
摘要由CSDN通过智能技术生成

数据统计分析中 y 和 x 的关系

  • 线性关系:y = β * x
  • 抛物线关系:y = β0 * x + β1 * x^2
  • 对数关系:y = ln(x)
  • 指数关系:y = e^x
  • ...

主要内容

  • 线性回归的模型、目标与算法
  • 正则化方法:岭回归、LASSO算法、弹性网络
  • 算法汇总:最小二乘法、极大似然估计、正则化的最小二乘法

扰动项就是不能被 X 解释的 Y 的变异,就是找不到解释的因素

简单线性回归的估计

import matplotlib.pyplot as plt
import os
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

os.chdir(r"D:\pydata")
#pd.set_option('display.max_columns', 8)


# 导入数据和数据清洗

# In[2]:

raw = pd.read_csv(r'creditcard_exp.csv', skipinitialspace=True)
raw.head()


# In[3]:

exp = raw[raw['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2',axis=1)

exp_new = raw[raw['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2',axis=1)

分出训练集和预测集 

 

lm_s = ols('avg_exp ~ Income', data=exp).fit()
lm_s.summary()


                            OLS Regression Results                            
==============================================================================
Dep. Variable:                avg_exp   R-squared:                       0.454
Model:                            OLS   Adj. R-squared:                  0.446
Method:                 Least Squares   F-statistic:                     56.61
Date:  
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值