导语: 现在大多数人入门机器学习的第一个案例是多元线性回归模型,其中多元共线性这个问题将贯穿所有的机器学习模型。这里选用的经典房价预测用到的精度优化方法效果拔群,能提供比较好的参考价值,将会带大家讲解如何更好构建和优化多元线性回归模型。
研究方向: 机器学习,多元线性回归模型,Python
数据探索
本文的数据集是经过清洗的美国某地区的房价数据集
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt df = pd.read_csv('house_prices.csv') df.info();df.head()
参数说明:
- neighborhood/area:所属街区和面积
- bedrooms/bathrooms:卧室和浴室
- style:房屋样式
多元线性回归建模
现在我们直接构建多元线性回归模型
from statsmodels.formula.api import ols # 小写的 ols 函数才会自带截距项,OLS 则不会 # 固定格式:因变量 ~ 自变量(+ 号连接) lm = ols('price ~ area + bedrooms + bathrooms', data=df).fit() lm.summary()
红框为我们关注的结果值,其中截距项 Intercept 的 P 值没有意义,可以不用管它