水很深的深度学习-task02

最新推荐文章于 2024-08-08 17:45:51 发布

hreeng

最新推荐文章于 2024-08-08 17:45:51 发布

阅读量402

点赞数 1

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/hreeng/article/details/121450139

版权

基础部分

机器学习分类

有监督学习：代表任务“分类”＋“回归”
无监督学习（一般用一些既定标准进行评价）代表任务“聚类”＋“降维”
强化学习：没有环境的情况下，学生对问题答案进行自我评价的方法

在这里插入图片描述

数据集

观测样本的集合。具体地，D=x1,x2,⋯,xn 表示一个包含n个样本的数据集，其中xi 是一个向量，表示数据集的第𝑖个样本，其维度𝑑称为样本空间的维度。向量xi 的元素称为样本的特征，其取值可以是连续的，也可以是离散的。从数据集中学出模型的过程，便称为“学习”或“训练”。数据集的分类如下：

训练集：用于模型拟合的数据样本
验证集(Validation set)：是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估；

比如核大小，填充，步幅都是超参数；例如SVM中参数 cc (控制分类错误的惩罚程度)和核函数的选择，或者选择网络结构

测试集(Testset):用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

常用数据集

图像分类
MNIST(手写数字) http://yann.lecun.com/exdb/mnist/
CIFAR-10, CIFAR-100, ImageNet
https://www.cs.toronto.edu/~kriz/cifar.html
http://www.image-net.org/
电影评论情感分类
Large Movie Review Dataset v1.0 http://ai.stanford.edu/~amaas/data/sentiment/
图像生成诗歌
数据集:https://github.com/researchmm/img2poem

误差分析

｜模型在训练集上的误差称为“训练误差”
｜模型在总体样本上的误差称为“泛化误差”
｜模型在测试集上的误差称为“测试误差”
误差是指算法实际预测输出与样本真实输出之间的差异。由于我们无法知道总体样本会，所以我们只能尽量最小化训练误差，导致训练误差和泛化误差有可能存在明显差异。 在这里插入图片描述

过拟合是指模型能很好地拟合训练样本，而无法很好地拟合测试样本的现象，从而导致泛化性能下降。为防止“过拟合”，可以选择减少参数、降低模型复杂度、正则化等
欠拟合是指模型还没有很好地训练出数据的一般规律，模型拟合程度不高的现象。为防止“欠拟合”，可以选择调整参数、增加迭代深度、换用更加复杂的模型等。

在这里插入图片描述

泛化误差分析

假设数据集上需要预测的样本为Y，特征为X，潜在模型为 Y=f(X)+ε，其中ε∼N(0,σε)是噪声, 估计的模型为f^(X)。
欠拟合：高偏差低方差；（1）寻找更好的特征，提升对数据的刻画能力（2）增加特征数量（3）重新选择更加复杂的模型
过拟合：低偏差高方差；（1）增加训练样本数量（2）减少特征维数，高维空间密度小（3）加入正则化项，使得模型更加平滑

交叉验证
基本思路：将训练集划分为K份，每次采用其中K-1份作为训练集，另外一份作为验证集，在训练集上学得函数后，然后在验证集上计算误差—K折交叉验证

有监督学习

数据集有标记(答案)，数据集通常扩展为(xi,yi)，其中yi∈Y是 xi 的标记，Y是所有标记的集合，称为“标记空间”或“输出空间”，监督学习的任务是训练出一个模型用于预测 𝑦 的取值，根据 D={(x1,y1),(x2,y2),⋯,(xn,yn)}，训练出函数𝑓，使得f(x)≅y；若预测的值是离散值，如年龄，此类学习任务称为“分类”；若预测的值是连续值，如房价，此类学习任务称为“回归”

线性回归

线性回归是在样本属性和标签中找到一个线性关系的方法，根据训练数据找到一个线性模型，使得模型产生的预测值与样本标签的差距最小。

逻辑回归

逻辑回归是利用𝑠𝑖𝑔𝑚𝑜𝑖𝑑函数，将线性回归产生的预测值压缩到0和1之间。此时将𝑦视作样本为正例的可能性

支持向量机

SVM基本思想：对于线性可分的数据，能将训练样本划分开的超平面有很多，于是我们寻找“位于两类训练样本正中心的超平面”，即margin最大化。从直观上看，这种划分对训练样本局部扰动的承受性最好。事实上，这种划分的性能也表现较好。

随机森林

集成学习：组合多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。随机森林用随机的方式建立起一棵棵决策树，然后由这些决策树组成一个森林，其中每棵决策树之间没有关联，当有一个新的样本输入时，就让每棵树独立的做出判断，按照多数原则决定该样本的分类结果。
随机森林构建的基本步骤
随机有放回地从训练集中的抽取m个训练样本,训练集 Dt.
从 Dt 对应的特征属性中随机选择部分特征，构建决策树
重复上述步骤构建多个决策树

预测步骤
向建立好的随机森林中输入一个新样本
随机森林中的每棵决策树都独立的做出判断
将得到票数最多的分类结果作为该样本最终的类别

无监督学习

数据集没有标记信息(自学)。聚类：我们可以使用无监督学习来预测各样本之间的关联度，把关联度大的样本划为同一类，关联度小的样本划为不同类，这便是 “聚类”；降维：我们也可以使用无监督学习处理数据，把维度较高、计算复杂的数据，转化为维度低、易处理、且蕴含的信息不丢失或较少丢失的数据，这便是“降维”

聚类

聚类的目的是将数据分成多个类别，在同一个类内，对象(实体)之间具有较高的相似性，在不同类内，对象之间具有较大的差异。对一批没有类别标签的样本集，按照样本之间的相似程度分类，相似的归为一类，不相似的归为其它类。这种分类称为聚类分析，也称为无监督分类
常见方法有K-Means聚类、均值漂移聚类、基于密度的聚类等
K-means聚类是一个反复迭代的过程，算法分为四个步骤：
（1）选取数据空间中的K个对象作为初始中心，每个对象代表一个聚类中心；
（2）对于样本中的数据对象，根据它们与这些聚类中心的欧氏距离，按距离最近的准则将它们分到距离它们最近的聚类中心(最相似) 所对应的类；
（3）更新聚类中心:将每个类别中所有对象所对应的均值作为该类别的聚类中心，计算目标函数的值；
（4）判断聚类中心和目标函数的值是否发生改变，若不变，则输出结果，若改变，则返回2)。

降维

降维的目的就是将原始样本数据的维度𝑑降低到一个更小的数𝑚，且尽量使得样本蕴含信息量损失最小，或还原数据时产生的误差最小。比如主成分分析法…
降维的优势：
数据在低维下更容易处理、更容易使用；
相关特征，特别是重要特征更能在数据中明确的显示出来；
如果只有二维或者三维的话，能够进行可视化展示；
去除数据噪声，降低算法开销等。

hreeng

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
水很深的深度学习-task02

基础部分机器学习分类有监督学习：代表任务“分类”＋“回归”无监督学习（一般用一些既定标准进行评价）代表任务“聚类”＋“降维”强化学习：没有环境的情况下，学生对问题答案进行自我评价的方法数据集观测样本的集合。具体地，D=x1,x2,⋯,xn 表示一个包含n个样本的数据集，其中xi 是一个向量，表示数据集的第????个样本，其维度????称为样本空间的维度。向量xi 的元素称为样本的特征，其取值可以是连续的，也可以是离散的。从数据集中学出模型的过程，便称为“学习”或“训练”。数据
复制链接

扫一扫