线性回归
房价预测
首先需要对数据集进行预处理:(??预处理需要关注的点)
缺失值标注,偏离值处理(异常值处理)
最小二乘
y = θ 0 + θ 1 x i 1 + θ 2 x i 2 + … + θ d x i d y=\theta_0+\theta_1 x_{i 1}+\theta_2 x_{i 2}+\ldots+\theta_d x_{i d} y=θ0+θ1xi1+θ2xi2+…+θdxid
通过使得误差平方和最小来拟合,来找到一组合适的 θ \theta θ。
即确立损失函数为:
min
θ
L
(
θ
)
\min _{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta})
θminL(θ)
通过数学推导得到准确解
梯度下降法:
搜索过程
代码实现
公式推导
最小二乘法的梯度计算
梯度下降法解决线性回归问题
学习率 α \boldsymbol{\alpha} α的选择
太小则收敛速度过慢
太大则容易跳过局部最优解,导致无法收敛或错过最优解。
通过梯度下降解决:标准、批量、随机梯度下降。
通过牛顿法求解。
思考:线性回归适应的问题类型。
https://zhuanlan.zhihu.com/p/127972563
https://zhuanlan.zhihu.com/p/62034592
https://cloud.tencent.com/developer/article/1102103
最小二乘,确切解的推导。
房价预测
https://www.kaggle.com/competitions/machine-learning-on-thursday
https://zhuanlan.zhihu.com/p/48702850
预处理
1.异常值处理:
对于数值型
对于非数值型
2.其他预处理
对于分类特征进行编码
?? Use one-hot encoding
对于顺序特征进行编码:顺序数字化,于此同时编码后可能并没有捕获到相对差异
Feature Transformations and Derived(派生) Features
以此来构建非线性模型
Ordinary Least Squares 普通最小二乘法
使用线性方法适配非线性模型。