机器学习基础概念

最新推荐文章于 2024-02-02 11:31:57 发布

Temmie1024

最新推荐文章于 2024-02-02 11:31:57 发布

阅读量182

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/temmie1024/article/details/115254337

版权

机器学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

参考《机械工业出版社的matlab》与《机器学习与机器学习算法视角》
机器学习是利用已有数据对未来数据做出预测或相应。

机器学习分类

两本书对分类有所不同，这里列出的是并集。
监督学习：也称范例学习，将特定的数据训练集应用于系统，监督学习过程。指定了哪些结果是正确的。但应注意，最终的结果会与你的训练集有关，如果训练集不合适，最终的结果也会不尽人意。
无监督学习：不使用训练集，即不提供正确的答案，在没有“正确”答案的数据中发现模式。无监督学习的优点在于可以发现一些数据中你没有发现的特征规律。
半监督学习：部分数据以训练集的形式存在，其他不是。通常情况下，训练集占比较小，因为训练集需要人为进行标记。
在线学习：系统不断地利用新数据学习，也称为递归学习。
强化学习：介于监督学习与非监督学习之间，如果答案不正确，算法会被告知错误，然后算法内部进行修正。也被称为伴随评论家学习，因为会对答案进行判断，但不提出改进方法。
进化学习：学习生物进化的过程，不断提高自身模型适应度。
在这里插入图片描述
自主学习意味着不需要人为干预的学习过程。
控制：使用反馈来补偿系统的不确定性或使系统表现不同于其通常的行为。
人工智能：目标是使机器能够推理。
机器学习：利用数据产生解决问题的行为。

自主学习的方法

回归：将数据拟合到模型的方法。模型可以是多维曲线。回归过程将数据拟合到曲线，产生可以用于预测的模型。
神经网络：用于模拟人类大脑中神经元的网络，每个神经元都具有用于从输入确定输出的数学模型。
支持向量机：SVM属于关联学习算法的监督学习模型，目标是基于训练数据产生预测目标值的模型。
决策树：决策树抱哈三种节点：决策节点；机会节点；结束节点。决策树的过程完全透明。难点在于找到合适的决策树。
专家系统：也称为基于知识的系统，系统使用知识库来推荐，并想用户成像结果以及如何得到该结果的解释。困难在于需要具有相应专业知识的人构建，不能外推数据库没有的知识以及结果的可信度问题。

机器学习过程

1.数据收集和准备
2.特征选择
3.算法选择
4.参数和模型选择
5.训练
6.评估

机器学习基础的术语和概念

数据：数据用于训练系统。当收集数据用于训练时，必须保证能够正确理解系统随时间的变化。如果系统结构随时间变化，这可能有必要在训练系统前丢弃旧数据。
模型：模型提供了一个用于学习的数学框架。模型是由人类基于自己的观察和经验衍生出来的。
训练：系统需要训练以将输入映射到输出。当使用足够多的训练数据时，引入新的输入才能产生正确的输出。
输入：输入向量是作为算法的输入给出的数据，写成x，带有元素x_i ，其中i从1到输入维度n。
权重：w_ij是节点i和j之间的加权连接，对于神经网络，这类权重类似于大脑中的突触。他们排列出矩阵W。
输出：输出向量是y，带有元素y_i ，其中j从1到输出维度n。我们写成y(x,W)来提醒自己输出取决于算法的输入和网络当前权重集。
目标：目标向量是t，带有元素t_j，其中j从1到输出维度n。它是监督学习所需的额外数据，因为它提供了算法正在学习的正确答案。
激活函数：对于神经网络，g(·)是一种数学函数，描述神经元的激发作为对加权输入的响应。
误差：E是一种根据输入y和目标t计算网络不准确性的函数。
权重空间：在神经网络中，如果将神经元的权重视为一组坐标，就是权重空间。
维度灾难：当维度超过三维的时候，绘制的球体就变为超球面，维度趋于无穷大时，超球面的体积趋于0。对于机器学习中，随着输入维度的增加，我需要提供更多的数据来使算法充分推广。
测试集：其数据和结果不包含在训练集当中，算法无法通过查找训练集得出结果。通过它来决定算法的学习程度。唯一的缺点在于测试集与训练集都是已有数据和结果，产生测试集意味着训练集的数据会相应减少。
过拟合：大多数算法可变度是巨大的，我们希望它经过足够多的训练来实现很好的泛化，但过量的训练会导致算法学习了数据中的噪声和不准确性，使得算法无法泛化，过于复杂。
验证集：为了防止算法过拟合，我们需要知道算法每一个时间不长后的泛化状况，测试集是用在最后测试算法的，因此这时还需要一个额外的数据集俩验证。
一定要注意数据集、测试集、验证集的数据分配，数据要打乱来分配，如果某一集合的数据聚集在一个范围内，那么它对这个范围外就没有什么指导作用
混淆矩阵：用于记录输入与输出，做横坐标为输出，纵坐标为输入的表格，记录输入对应的输出，只有输入与输出相对应的时候才是正确的，其他输入情况就是错误的，用以评价算法的精度。
精度指标：这里就不照书搬了，我在知乎查找了一下关于这方面的讲解，比书上的好理解的，另外精度的定义和书上不同，但我更倾向于网上这个写法。链接
联合概率、条件概率、贝叶斯法则：链接

Temmie1024

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础概念

参考《机械工业出版社的matlab》与《机器学习与机器学习算法视角》机器学习是利用已有数据对未来数据做出预测或相应。机器学习分类两本书对分类有所不同，这里列出的是并集。监督学习：也称范例学习，将特定的数据训练集应用于系统，监督学习过程。指定了哪些结果是正确的。但应注意，最终的结果会与你的训练集有关，如果训练集不合适，最终的结果也会不尽人意。无监督学习：不使用训练集，即不提供正确的答案，在没有“正确”答案的数据中发现模式。无监督学习的优点在于可以发现一些数据中你没有发现的特征规律。半监督学习
复制链接

扫一扫