回归和聚类
线性回归
欠拟合与过拟合
岭回归
分类算法:逻辑回归
模型保存与加载
无监督学习 k-means算法
一、线性回归:
回归问题:
目标值-连续型的数据
线性回归原理:
什么是线性回归:
公式:h(w)=W1X1+W2X2+W3X3...+B
函数关系 特征值(X1,X2,X3...)和目标值(h(W))的函数关系 w是权重 B是偏置
广义线性模型
非线性关系:
线性模型
自变量一次 :h(w)=W1X1+W2X2+W3X3...+B
参数一次 :h()=w1x+w2x^2+w3x3^3...+B
线性回归的损失和优化原理(理解记忆)
目标:求模型参数
模型参数能够使预测准确
真实关系:真实房子价格=0.02*中心区域的距离+0.04*城市一氧化碳浓度+.......
随意假定:预测房子价格=0.025*中心区域的距离+0.14*城市一氧化碳浓度+.......
损失函数/cost/成本函数/目标函数:
最小二乘法
优化损失
优化方法?
1)、正规方程-直接求解w
sklearn.linear_model.LinearRegression(fit_intercept=True)
正规方程 偏置=True
2)、梯度下降-试错、迭代、改进 sklearn.linear_model.SGDRegressor(loss="squared_loss",fit_intercept=True)
梯度下降 损失函数:最小二乘法 偏置=True
回归案例:波士顿房价预测
流程:
1)、获取数据集
2)、划分数据集
3)、特征工程:
无量纲化-标准化
4)、预估器流程
fit()-->模型
coef_:回归系数 intercept_:偏置
5)、模型评估
回归的性能评估:
均房误差:
梯度下降:选择学习率,调参,特征数量大时常用
正规方程:需要直接计算,时间复杂度高