Task01：机器学习概述

最新推荐文章于 2024-08-23 17:48:13 发布

R_TRIG

最新推荐文章于 2024-08-23 17:48:13 发布

阅读量202

点赞数

分类专栏： Learning 文章标签：机器学习

本文链接：https://blog.csdn.net/ocean56/article/details/103916306

版权

Learning 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

机器学习面试问题：

机器学习：机器学习是什么，怎么来的，理论基础是什么，为了解决什么问题。

机器学习是从已知的数据和答案中寻找出某种规则。区别传统编程基于规则和数据，得到一个答案。
机器学习以计算机为工具和平台，以数据为研究对象，以学习方法为中心，是概率论，线性代数，信息论，最优化和计算机科学等多个领域的交叉学科。
应用于自动驾驶，人脸识别，垃圾邮件检测，信用风险预测，工业制造缺线检测，商品价格预测，语音识别和智能机器人扥领域

机器学习分类：
- 按学习方式分：有监督、无监督、半监督
1. 有监督：是指基于一组带有结果标注的样本训练模型，然后用该模型对新的未知结果的样本做出预测。
2. 无监督：训练样本的结果信息是没有被标注的，即训练集的结果标签是未知的。
3. 半监督：学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。
- 按任务类型分：回归、分类、聚类、降维生成模型与判别模型
1. 回归：利用数理统计中的回归分析技术，来确定两种或两种以上变化量之间依赖关系。
2. 分类：分类问题是机器学习中最常见的一类任务，比如图像分类，文本分类等。
3. 聚类：又称群分析，目标是将样本划分为紧密关系的子集或簇。
4. 降维：是指采用某种映射方法，将原高维空间的数据点映射到低维空间。
5. 生成模型：基于按学习方法分类中进一步的划分-生成方法，由数据学习训练集的联合概率分布，然后求出条件概率分布作为预测模型，即做成模型再运用这个模型对测试集数据进行预测。之所以被称为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。典型的有朴素贝叶斯模型和隐马尔科夫模型。
6. 判别模型：基于按学习方法分类中进一步的划分-判别方法，是由数学直接学习决策函数或条件概率分布作为预测模型，即判别模型。判别方法关心的是给定的输入X,应该预测出什么样的输出Y。典型的判别模型包括K近邻，感知机，决策树，logistic回归，最大熵模型，支持向量机，提升方法，条件随即场等。
机器学习方法三要素

机器学习方法都是由模型、策略和算法三要素构成。机器学习方法=模型+策略+算法

模型：

根据实际问题，第一目标建立一个函数或者概率模型，其中包含未知参数，求解未知参数作为第二目标。然后通过训练集将其学习出来。

策略

通过训练集将其学习出来，采用这样策略：定义一个"损失函数"。
损失函数：描述么哦一次预测结果与真实结果之间的差异。常用的损失函数有：
1. 0-1损失函数 todo
2. 绝对损失函数 todo
3. 平方损失函数 todo
4. 指数损失函数 todo
5. Hinge损失函数 todo
6. 对数损失函数 todo

算法：梯度下降法、牛顿法、拟牛顿法
算法

算法指的是求解最优化问题的方法，我们一般将其转化为无约束优化问题，然后利用梯度下降法和牛顿法进行求解。

梯度下降法:运用迭代法做数值计算（比如求解某个方程组的解）时，只要误差能够收敛，计算机进过一定次数的迭代后就可以给出一个跟真实解很接近的结果。进一步考虑：目标函数按照那个方向迭代求解时误差的收敛速度会最快呢？答案就是沿梯度方向。多元微分学中，梯度就是函数的导数方向。梯度法是求解无约束多元函数极值极值最早的数值方法，很多机器学习的常用算法都是以它作为算法框架进行改进的。目标函数在某点的梯度是一个由各个分量的偏导数构成的向量。几何解释:用一个平面去你和当前的局部曲面。
牛顿法：是求解无约束最优化问题的常用方法，最大的优点是收敛速度快。牛顿法相对于梯度下降法，是用一个二次曲面去拟合你当前所处位置的局部曲面。二次曲面的拟合会比平面更好，锁以牛顿法选择的下降鲁锦更符合真是的最优下降路径。
阻尼牛顿法：解决牛顿法的一个风险：即牛顿方向不一定是下降方向，经迭代，目标函数值可能上升。此外，及时目标函数值是下降的，得到的点也不一定是沿牛顿方向最好的点或极小值点。因此人民提出了阻尼牛顿法对牛顿法进行修正。阻尼牛顿法在牛顿法的基础上增加了动态步长因子，相当于增加了一个沿牛顿方向的一维搜索。
拟牛顿法：优势是收敛较快，牛顿和阻尼牛顿法的迭代式中，每次都必须计算Hessen矩阵的逆矩阵，当函数中的含有的未知变量个数较多时，这个计算量是比较大的，为了客服这一缺点，人们提出用一个更简单的式子去近似拟合式子中的Hessen矩阵，这就有了拟牛顿法。

模型评估指标：R2、RMSE、accuracy、precision、recall、F1、ROC、AUC、Confusion Matrix

R2 todo
RMSE todo
accuracy todo
precision todo
recall todo
F1 todo
ROC todo
AUC todo
Confusion Matrix todo

复杂度度量：偏差与方差、过拟合与欠拟合、结构风险与经验风险、泛化能力、正则化

偏差与方差 todo
过拟合与欠拟合 todo
结构风险与经验风险 todo
泛化能力 todo
正则化 todo

模型选择：正则化、交叉验证

正则化 todo
交叉验证 todo

采样：样本不均衡

样本不均衡 todo

特征处理：归一化、标准化、离散化、one-hot编码

归一化 todo
标准化 todo
离散化 todo
one-hot编码 todo

模型调优：网格搜索寻优、随机搜索寻优

网格搜索寻优 todo
随机搜索寻优 todo

R_TRIG

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Task01：机器学习概述

机器学习面试问题：机器学习：机器学习是什么，怎么来的，理论基础是什么，为了解决什么问题。机器学习是从已知的数据和答案中寻找出某种规则。区别传统编程基于规则和数据，得到一个答案。机器学习以计算机为工具和平台，以数据为研究对象，以学习方法为中心，是概率论，线性代数，信息论，最优化和计算机科学等多个领域的交叉学科。应用于自动驾驶，人脸识别，垃圾邮件检测，信用风险预测，工业制造缺线检测，商...
复制链接

扫一扫