水很深的深度学习-task02

基础部分

机器学习分类

  • 有监督学习:代表任务“分类”+“回归”

  • 无监督学习(一般用一些既定标准进行评价)代表任务“聚类”+“降维”

    在这里插入图片描述

  • 强化学习:没有环境的情况下,学生对问题答案进行自我评价的方法

在这里插入图片描述

数据集

观测样本的集合。具体地,D=x1,x2,⋯,xn 表示一个包含n个样本的数据集,其中xi 是一个向量,表示数据集的第𝑖个样本,其维度𝑑称为样本空间的维度。向量xi 的元素称为样本的特征,其取值可以是连续的,也可以是离散的。从数据集中学出模型的过程,便称为“学习”或“训练”。数据集的分类如下:

  • 训练集:用于模型拟合的数据样本

  • 验证集(Validation set):是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估;

比如核大小,填充,步幅都是超参数;例如SVM中参数 cc (控制分类错误的惩罚程度)和核函数的选择, 或者选择网络结构

  • 测试集(Testset):用来评估模最终模型的泛化能力。但不能作为调 参、选择特征等算法相关的选择的依据。

常用数据集

  • 图像分类
    MNIST(手写数字) http://yann.lecun.com/exdb/mnist/
    CIFAR-10, CIFAR-100, ImageNet
    https://www.cs.toronto.edu/~kriz/cifar.html
    http://www.image-net.org/

  • 电影评论情感分类
    Large Movie Review Dataset v1.0 http://ai.stanford.edu/~amaas/data/sentiment/

  • 图像生成诗歌
    数据集:https://github.com/researchmm/img2poem

误差分析

| 模型在训练集上的误差称为“训练误差”
| 模型在总体样本上的误差称为“泛化误差”
| 模型在测试集上的误差称为“测试误差”
误差是指算法实际预测输出与样本真实输出之间的差异。由于我们无法知道总体样本会,所以我们只能尽量最小化训练误差, 导致训练误差和泛化误差有可能存在明显差异。在这里插入图片描述

过拟合是指模型能很好地拟合训练样本,而无法很好地拟合测试样本的现象,从而导致泛化性能下降。为防止“过拟合”,可以选择减少参数、降低模型复杂度、正则化等
欠拟合是指模型还没有很好地训练出数据的一般规律,模型拟合程度不高的现象。为防止“欠拟合”,可以选择调整参数、增加迭代深度、换用更加复杂的模型等。

在这里插入图片描述

泛化误差分析

假设数据集上需要预测的样本为Y,特征为X,潜在模型为 Y=f(X)+ε,其中ε∼N(0,σε)是噪声, 估计的模型为f^(X)。
欠拟合:高偏差低方差;(1)寻找更好的特征,提升对数据的刻画能力(2)增加特征数量(3)重新选择更加复杂的模型
过拟合:低偏差高方差;(1)增加训练样本数量(2)减少特征维数,高维空间密度小(3)加入正则化项,使得模型更加平滑

交叉验证
基本思路:将训练集划分为K份,每次采用其中K-1份作为训练集, 另外一份作为验证集,在训练集上学得函数后,然后在验证集上计 算误差—K折交叉验证

有监督学习

数据集有标记(答案),数据集通常扩展为(xi,yi),其中yi∈Y是 xi 的标记,Y是所有标记的集合,称为“标记空间”或“输出空间”,监督学习的任务是训练出一个模型用于预测 𝑦 的取值,根据 D={(x1,y1),(x2,y2),⋯,(xn,yn)},训练出函数𝑓,使得f(x)≅y;若预测的值是离散值,如年龄,此类学习任务称为“分类”;若预测的值是连续值,如房价,此类学习任务称为“回归”

线性回归

线性回归是在样本属性和标签中找到一个线性关系的方法,根据训练数据找到一个线性模型,使得模型产生的预测值与样本标 签的差距最小。

逻辑回归

逻辑回归是利用𝑠𝑖𝑔𝑚𝑜𝑖𝑑函数,将线性回归产生的预测值压缩到0和1之间。此时将𝑦视作样本为正例的可能性

支持向量机

SVM基本思想:对于线性可分的数据,能将训练样本划分开的超平 面有很多,于是我们寻找“位于两类训练样本正中心的超平面”, 即margin最大化。从直观上看,这种划分对训练样本局部扰动的承 受性最好。事实上,这种划分的性能也表现较好。

随机森林

集成学习:组合多个弱监督模型以期得到一个更好更全面的强监督模型,集成学 习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分 类器也可以将错误纠正回来。随机森林用随机的方式建立起一棵棵决策树,然后由这些决策树组成 一个森林,其中每棵决策树之间没有关联,当有一个新的样本输入 时,就让每棵树独立的做出判断,按照多数原则决定该样本的分类 结果。
随机森林构建的基本步骤
随机有放回地从训练集中的抽取m个训练样本,训练集 Dt.
从 Dt 对应的特征属性中随机选择部分特征,构建决策树
重复上述步骤构建多个决策树

预测步骤
向建立好的随机森林中输入一个新样本
随机森林中的每棵决策树都独立的做出判断
将得到票数最多的分类结果作为该样本最终的类别

无监督学习

数据集没有标记信息(自学)。聚类:我们可以使用无监督学习来预测各样本之间的关联度,把关 联度大的样本划为同一类,关联度小的样本划为不同类,这便是 “聚类”;降维:我们也可以使用无监督学习处理数据,把维度较高、计算复 杂的数据,转化为维度低、易处理、且蕴含的信息不丢失或较少丢 失的数据,这便是“降维”

聚类

聚类的目的是将数据分成多个类别,在同一个类内,对象(实体)之间具 有较高的相似性,在不同类内,对象之间具有较大的差异。对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为聚类分析,也 称为无监督分类
常见方法有K-Means聚类、均值漂移聚类、基于密度的聚类等
K-means聚类是一个反复迭代的过程,算法分为四个步骤
(1)选取数据空间中的K个对象作为初始中心,每个对象代表一个聚 类中心;
(2)对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离, 按距离最近的准则将它们分到距离它们最近的聚类中心(最相似) 所对应的类;
(3)更新聚类中心:将每个类别中所有对象所对应的均值作为该类别 的聚类中心,计算目标函数的值;
(4)判断聚类中心和目标函数的值是否发生改变,若不变,则输出结 果,若改变,则返回2)。

降维

降维的目的就是将原始样本数据的维度𝑑降低到一个更小的数𝑚,且尽量使得样本蕴含信息量损失最小,或还原数据时产生的误差最小。比如主成分分析法…
降维的优势:
数据在低维下更容易处理、更容易使用;
相关特征,特别是重要特征更能在数据中明确的显示出来;
如果只有二维或者三维的话,能够进行可视化展示;
去除数据噪声,降低算法开销等。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值