AI-作业2

1 结构风险最小化

   传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的, 会出现过学习现象,因此,需要同时最小化经验风险和置信范围。为此,统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化,即SRM准则。

​2 正则化

为了防止模型过拟合机器学习中经常会在损失函数中加入正则项,称之为正则化。其原理是在损失函数上加上某些规则,缩小解空间,从而减少求出过拟合解的可能性

3 线性回归

回归是统计学中最有力的工具之一。
回归的目的就是建立一个回归方程用来预测目标值,回归的求解就是求这个回归方程的回归系数。预测的方法当然十分简单,回归系数乘以输入值再全部相加就得到了预测值。

回归的定义
回归最简单的定义是,给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小,如果这个函数曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归。

4 逻辑斯蒂回归

逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+b,y的取值范围是[-∞, +∞],有这么多取值,为了进行分类我们把Y的结果带入一个非线性变换的Sigmoid函数中,即可得到[0,1]之间取值范围的数S,S可以把它看成是一个概率值,如果我们设置概率阈值为0.5,那么S大于0.5可以看成是正样本,小于0.5看成是负样本,就可以进行分类了。

5 Sigmoid 与 SoftMax 函数

softmax函数
在数学上,softmax函数又称归一化指数函数,是逻辑函数的一种推广。它能将一个喊任意实数的k维的向量z的“压缩”到两一个k维向量σ(z) 中,使得每一个元素的范围都在(0, 1)之间,并且所有元素和为1。

 

  x:输入数据;
  exp:指数运算;
  f(x):函数输出;
  将所有的x值映射到0到1区间内;
   所有x的映射值的和等于1。

sigmoid函数

sigmoid函数是一个生物学上常见的S型函数,也称为S型生长曲线。sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。

 

  x:输入数据;
  exp:指数运算;
  f(x):函数输出,为浮点数;

6 决策树

决策树是一种机器学习的方法。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

决策树是一种十分常用的分类方法,需要监管学习,监管学习就是给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。

7 信息熵 条件熵 信息增益

信息熵

在决策树算法中,熵是一个非常非常重要的概念。

一件事发生的概率越小,我们说它所蕴含的信息量越大。

所以我们这样衡量信息量:

 

其中P(y)代表事件y发生的概率。

而信息熵就是所有可能发生的事件的信息量的期望:

 

H(Y)表达了Y事件发生的不确定度。

条件熵

条件熵:表示在X给定条件下,Y的条件概率分布的熵对X的数学期望。其数学推导如下:

​ ​

条件熵H(X|Y)表示在已知随机变量X的条件下随机变量Y的不确定性。注意一下,条件熵中X也是一个变量,意思是在一个变量X的条件下,另一个变量Y的熵对X的期望。

信息增益

当我们用另一个变量X对原变量Y分类后,原变量Y的不确定性就会减小了(即熵值减小)。而熵就是不确定性,不确定程度减少了多少其实就是信息增益

8 线性判别分析 LDA

线性判别分析LDA又称为Fisher线性判别,是一种监督学习的降维技术,也就是说它的数据集的每个样本都是有类别输出的,这点与PCA不同。LDA在模式识别领域中有非常广泛的应用,因此我们有必要了解下它的算法原理。

LDA的思想是:最大化类间均值,最小化类内方差。意思就是将数据投影在低维度上,并且投影后同种类别数据的投影点尽可能的接近,不同类别数据的投影点的中心点尽可能的远。

9 概率近似正确 PAC

机器学习关心的是从假设空间中以什么样的方式选出的假设才是最优的,也就是选哪个。而PAC关心的是能不能从假设空间空选出一个最优的假设,也就是说在这样有限的训练集下,能不能在假设空间中找到一个好的假设来完成任务。也就是说PAC可以用来判断达没达到可以选择出足够好的假设来解决问题的下限。 


如果是完全意义上的正确,那么肯定是对实例空间里的样本经验风险为0,同时又对外来的实例泛化误差为0,这显然是不可能的。而且经验风险太小也不是一件好事,所以只要设定一个阈值,只要选取出的假设h的泛化误差E(h)不超过这个值就认为是”正确”的了,而不是去追求完全的“正确”。 


实际上,对于所有外来的实例,假设h都能做到“近似正确”,这也几乎是不可能的一件事。只要对于多数的外来实例,都能做到“近似正确”,也就是说设定一个概率的阈值,只要“近似正确”的频率不小于这个概率阈值,就认为是“近似正确”的了,而不是去追求对所有训练集外的实例都“近似正确”。

10 自适应提升AdaBoost

自适应提升算法,英文Adaboost的全称是Adaptive Boosting。是一种有监督的集成学习。核心思想是对某一特定的训练集训练多个弱分类器,然后根据相应策略将这些弱分类器结合起来,构成最终的强分类器。
自适应提升法的思想是,在每次分类任务中重点关注被错误分类的样本,减少对被分类正确的样本的关注。这样逐步可以得到一个比较清晰的分类方向,即一个强分类器。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值