机器学习笔记之线性回归问答

最新推荐文章于 2022-11-26 16:21:17 发布

慕广陵

最新推荐文章于 2022-11-26 16:21:17 发布

阅读量309

点赞数

分类专栏：机器学习笔记文章标签：机器学习线性回归自学

本文链接：https://blog.csdn.net/PythonKing/article/details/100079632

版权

机器学习笔记专栏收录该内容

0 篇文章 0 订阅

订阅专栏

正在学机器学习相关,及其希望有小伙伴一起学,这样学习效率比自学高多了,线下学习交流加我微信啦:

## 第一章机器学习简介

### 1. 机器学习是什么?
机器学习(Machine Learning) 是人工智能的一个分支,主要是研究和构造可以从数据中学习的系统.涉及了概率论/统计学/线性代数/微积分等多门学科.
机器学习分监督学习/无监督学/强化学习.监督是在一个有标签数据集,从标签上学习.无监督学没有标签支持,靠机器学习发现其中蕴含结构；强化学习则延迟"奖励",给及时反馈.

### 2. 机器学习有哪些任务?流程如何?
机器学习中任务类型有:监督学习有回归和分类,还有排序.基本流程是构造模型,训练数据,得到模型后在测试集合上测试,验证模型性能.

无监督学习是在数据集上运行,发现数据隐藏结构,最后形成模型.无监督学习有聚类任务和降维任务.

## 第二章线性回归

- [ ] 什么是回归？
回归和分类相对,对于连续型变量,就是回归；对于离散型变量,就是分类.
先给定数据集合D,目标集合y,找到从D到y的映射f;再用f预测新数据集合X.
比如预测石油价格,预测地区房屋价格,根据学生历史表现预测学生成绩.

- [ ] 特征工程有哪些常用处理方法？
我知道的:标准化/归一化/独热编码；缺失值用中值/均值/0等补全空值.还有很多不知道的:[特征工程方法整理](https://www.jianshu.com/p/800377efc422)

- [ ] L2损失函数、L1损失函数、Huber损失函数有什么区别？
L2损失是(y-wx)^2,L1是|y-wx|,Huber损失综合二者.L2噪声敏感,但处处可导,便于优化计算；L1噪声不敏感,但0点不可导.Huer有个分界线:

- [ ] 什么是过拟合？
在训练集合上,模型预测准确率很高,但用到测试集合上,模型准确率就下来了.也就是说,模型只在训练集上实现了很好拟合,但没有泛化能力.这样就过拟合了.

- [ ] 损失函数用概率如何解释？
L2损失等同负log似然损失；L1损失等同lapalace分布；

- [ ] L2正则、L1正则有什么区别？
L2正则比L1正则更收敛；

- [ ] 什么是梯度下降？线性回归模型，梯度下降法如何求解？
多元函数y在x处有各个方向导数向量,在向量减少方向,能找到y的最小值；反之找到最大值.
步骤:
1.t=0时,随机初始化w0；
2.计算目标函数J(w)在当前值的梯度: dietaJ(w);
3.根据学习率n,更新参数:w(t+1) = w(t) - n dieta w(t);
4.判断是否满足迭代终止条件,如果满足,循环中止,返回最佳参数w(t+1)和目标函数极值J(w(t+1)), 否则转回第二步；

- [ ] 什么是随机梯度下降?相比梯度下降优势在哪儿?
梯度下降法算法复杂度高,GD在强凸情况下,线性收敛,至少需要O(log(1/e)),才能达到精度.又每次梯度计算需要n个样本.所以复杂度是o(nlog(1/e)*o(nlog(1/e)),数据量较大,计算消耗资源多,时间长.如果样本数据冗余,效率不高.
相比之下,随机梯度下降,每次只计算一个样本梯度,复杂度为O(1/e).
另外,SGD前期迭代效果显著；数据量较大时候,依然效果好.

- [ ] 线性回归模型，坐标轴下降法如何求解？
• 沿坐标轴方向搜索
• 在每次迭代中,在当前点处沿一个坐标轴方向进行一维搜索。
• 循环使用不同的坐标轴。一个周期的一维搜索迭代过程相当于一个
梯度迭代。
• 利用当前坐标系统进行搜索,无需计算目标函数的导数,只按照某
一坐标方向进行搜索最小值。
• 梯度下降法:沿目标函数负梯度的方向搜索,梯度方向通常不与任
何坐标轴平行。
• 坐标下降法在稀疏矩阵上的计算速度非常快。(为什么?数学原理是什么?)

- [ ] 回归模型性能评价指标有哪些？各有什么优缺点?
MSE/RMSE/MAE/R2.
MSE:均方误差；
RMSE:均方根误差

- [ ] 什么是交叉验证？
从不同数据源分割出数据,相互校验；

- [ ] 如何评估模型？
用K折交叉验证评估模型性能,cross_validate/cross_val_score.后者评估一个指标在校验集合上的得分；前者允许指定多个指标评估,除了校验集合上,还会包含训练得分/拟合次数/得分次数.