人工智能导论——机器学习

最新推荐文章于 2024-07-18 14:59:12 发布

ymy_forever

最新推荐文章于 2024-07-18 14:59:12 发布

阅读量1k

点赞数 1

分类专栏：人工智能文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43403605/article/details/110350473

版权

人工智能专栏收录该内容

5 篇文章 4 订阅

订阅专栏

0. 机器学习概述

根据机器学习输入数据类型，机器学习可分为如下几类：

监督学习：多用于回归、分类
无监督学习：多用于聚类、降维
强化学习：模仿动物的激励学习过程，在与环境交互中学习

下面是常见的机器学习算法。
在这里插入图片描述
机器学习领域的术语也需要理解一下：

经验风险：训练集损失
期望风险：测试集损失
结构风险：经验风险+表示模型复杂度的正则化项或惩罚项
泛化能力：即模型迁移到不同数据上的表现情况

1. 监督学习

监督学习即数据有标签，方法可分为生成方法和判别方法。
两者有什么区别呢？

1.1 生成方法和判别方法区别

先来看一下PPT上的定义：

判别方法：直接学习判别函数或条件概率分布作为预测的模型
生成方法：从数据中学联合概率分布

看到概率、函数就蒙了，从目的的角度来看，判别方法只关心预测结果。而生成模型则关心信号产生的过程与方法。除此之外，生成方法为了得到想要的生成过程，对数据量的需求较大（当样本无穷大时，才能用部分去估计整体），判别方法则对数据要求不高。

1.2 分类与线性回归的区别

分类值域是离散空间，结果是定性的
回归值域是连续空间，结果是定量的

线性回归的目标函数：最小化残差平方和的均值，求取的过程与最小二乘法相同。

1.3 支持向量机SVM

SVM：找到一个超平面，尽可能多的将两类数据点分开

对于线性可分的情况：最大间隔原则
对于非线性可分的情况：变换到高维的特征空间使得样本线性可分。但是维数增加将使得计算量增大，导致“维数灾难”。这个时候就需要核函数进行变换。

目前常用的核函数有多项式内核、高斯径向基函数内核RBF、Sigmoid内核。

1.4 Ada Boosting

Ada Boosting算法的思想可以看作如下：

先分解：将复杂的分类任务分成若干子任务
再合并：将若干个弱分类器组合起来，形成一个强分类器
损失函数：指数损失函数

其算法中的两个核心问题为：

在每个弱分类器学习过程中，如何改变训练数据的权重？
解决方法：提高在上一轮中分类错误样本的权重
如何将弱分类器组合成强分类器？
利用加权多数表决方法，提高分类误差小的弱分类器权重，减少分类误差大的弱分类器权重

Ada Boosting算法初始时每个训练样本权重相同，且合为1。

2. 无监督学习

2.1 K均值聚类

K均值聚类的流程如下:

缺点：

初值敏感
噪声和孤立数据敏感

2.2 主成分分析法

PCA是一种特征降维方法，在降维中将数据向方差最大方向投影。即投影结果方差最大，投影方向正交。

协方差：衡量样本间的相关度；cov(X,Y)>0，正相关；<0，负相关
皮尔逊相关系数：取值范围[-1,1]，刻画线性相关关系。相关系数为±1则线性相关。

协方差和相关系数：

相关系数是将协方差规整到一定的取值范围得到的。

独立和不相关：

不相关是比独立要弱的概念，独立一定不相关，不相关不一定独立。

题目分析

问题1

这题选D，首先B和C没有问题，纠结的地方在于每个样本的权重之和是否为1，每个弱分类器的权重之和是否为1。我们知道，初始时每个样本权重为1/N，在更新训练样本权重分布时，将其转化为了概率分布的形式，因此样本的权重累加和为1，但弱分类器权重之和并不一定为1，其权重只与其分类误差有关。

问题2

这题选A，首先A说的是每一维度间具有极大相关度。这里应该是每一维度间相关度最小，方差最大。B的确有说的太过绝对的问题。但是A错的更离谱

问题3 降维的目的和方法？

降维可以减少计算量，方便机器学习模型的训练和预测
降维后可以对数据进行可视化，以便对数据进行观察
降维可以解决维度过高导致的难以学习数据特征的问题。

问题4：可不可以用BP神经网络训练深度学习模型？
不可以，原因如下:

BP算法随机设定初始值，当初始值远离最优区域时容易收敛至局部最小。
对于7层以上的深度网络，误差校正信号传播到前面层已经变得太小，出现梯度扩散。
BP算法需要有标签数据来训练，大部分数据无标签。

问题5

此题选A，后向传播时，已经有误差作为标签数据，因此为监督学习。

ymy_forever

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录