机器学习基础知识学习

研一上第一周学习笔记

1、阅读西瓜书的前两章,熟悉了一下机器学习中的各种概念,后面几章设计的数学公式太复杂,等到用到的时候再针对性的看github地址

2、谷歌机器学习教程,跟着把所有课程走了一遍,谷歌的教程图片和视频比较多,比单纯的文字容易理解。Google Machine Learning

3、李沐实用机器学习课程,只看了李沐

4、[1]张鹏锋. 基于深度学习的电厂设备运行参数异常检测[D].华中科技大学。看到了第二章,这篇硕士论文比博士论文容易理解,有了前几天学习的基础,这篇论文里提到的一些经典算法和概念都知道是怎么回事,之前看博士论文的时候一头雾水。基于深度学习的电厂设备运行参数异常检测

硕士论文

学习内容:

1、特征向量的概念

把"色泽" “根蒂” “敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把示例称为一个"特征向量” 。

2、分类和回归。

若我们欲预测的是离散值,例如"好瓜" “坏瓜”,此类学习任务称为"分类" (classification); 若欲预测的是连续值?例如西瓜成熟度 0.95 、 0.37 ,此类学习任务称为"回归" (regression)

3、监督学习和无监督学习。

根据训练数据是否拥有标记信息,学习任务可大致划分为监督学习和无监督学习。无监督学习不需要给数据打标签,没有明确目的的训练方式,无法提前知道结果是什么。通过无监督学习,我们可以快速把行为进行分类,虽然我们不知道这些分类意味着什么.
半监督学习
训练数据集包含一部分标记(已知答案)的样本和一部分未标记(未知答案)的样本。 自训练是一种半监督学习方法,其中模型首先使用已标记的数据进行训练,然后用模型对未标记的数据进行预测,并将非常确信的预测结果(比如分类中90%的概率可以归到A类)添加到已标记数据中,再训练一个新的模型,然后继续迭代。这个过程会不断增加已标记数据,从而改善模型性能。
跟自训练对应的是主动训练
跟自训练不同的是,自训练选择的是非常确信的预测结果添加到已标记数据中,主动训练是指将非常不确信的数据根据人工来标注,然后添加到已标注数据中。他俩一般混着一起使用。![22](https://img-blog.csdnimg.cn/abb2b423359246e5b2ac83d9af30ba98.png在这里插入图片描述

数据清洗
一种常用方法,选中从25%到75%的中间区间的数值,计算这一区间的高度,向上延申1.5倍的高度定义为最大值,向下同理,超过最大最小值的数据可以认为是异常数据。1.5倍是超参数,可以调参在这里插入图片描述

4、降维。

高维数据存在一些问题:计算复杂、维度灾难( 随着维度的增加,数据点之间的距离变得更加稀疏,这可能会导致一些机器学习算法性能下降,

5、维度灾难

如果维度非常高的话,距离这个概念在高维中就没有意义了,所有数据几乎一样远,几乎一样近,一些基于距离进行聚类的算法(比如KNN)的性能就会很差,还会导致过拟合。应对方法:降维、提高数据量(大数据的祝福)

6、过拟合。

是指机器学习或统计模型在训练数据上表现得太好,以至于在未见过的新数据上表现不佳的现象。由于模型过于复杂,以至于它学习到了训练数据中的噪声和随机变化,比如进行训练中的女人图片都是长头发的,训练出的模型就识别不出短头发的女人。这会导致模型在新数据上的泛化性能下降,因为它过于专注于训练数据的特殊特征,而忽视了一般性规律。
应对方法是减少模型的复杂度、增加训练数据、正则化,在损失函数中引入惩罚项、交叉验证、早停( 在训练过程中监测验证数据的性能,一旦性能开始下降,停止训练,以防止模型进一步过拟合。)

7、数据中的噪声。

指的是数据中不希望或不相关的随机变化或干扰,它们被混杂在了数据中,使数据变得不完美或不精确。噪声是不可避免的,可以使用数据清洗方法来减轻噪声的干扰

8、交叉验证。

旨在评估模型在未见过的数据上的泛化能力。它通过将数据集划分为多个子集,然后多次训练和测试模型,以获得对模型性能的更稳健和可靠的估计。为了更好地估计模型的性能,不同的子集被交替使用,以便每个子集都在训练和测试中被使用。这可以避免模型只在某些特定数据子集上表现好的情况。

9、归纳偏好

任何一个有效的机器学习算法必有其归纳偏好,否则它将无法产生确定的学习结果,平局的情况下模型可能会随机给结果。一般情况下机器学习算法的偏好是选择更简单的那个。在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,所以无法设计出在所有情况下都完美的模型,只能设计在固定条件下相对完美的模型。

损失函数公式一般有(均方差,均方根差,平均绝对误差,交叉熵损失(引入了权重))

鲁棒哈希能够再数据发生轻微变化的情况下产生相似的哈希值。对于输入数据的轻微变化或噪声具有一定程度的容忍度。即使输入数据发生小的改变,鲁棒哈希仍会产生相似的哈希值。这在一些需要对数据进行近似匹配或相似性搜索的应用中很有用。比如搜索山东建筑大削,算法还是会显示山东建筑大学的搜索结果。

10、梯度下降

目的是找到一条线能够拟合左边的黄点,黄点指的是数据.梯度就是函数对于某一参数的导数,在图像上表示为斜率.通过求导找出要变化的方向,学习率是要走多大的距离

在这里插入图片描述

在这里插入图片描述

特征缩放。房屋的面积(以平方英尺为单位):这个特征的值通常在几百到几千之间。房屋距离市中心的距离(以英里为单位):这个特征的值通常在1到20之间。如果不进行特征缩放,两个特征具有非常不同的尺度。面积的值远大于距离的值,这可能导致模型在学习时更多地侧重于面积特征,而忽略了距离特征的影响。这可能会导致模型对距离特征不敏感,影响了模型的性能。

如何判断梯度下降是否收敛。
通常,随着迭代次数的增加,损失函数的值应该逐渐减小。如果损失函数开始稳定下来,不再显著减小,或者出现周期性波动,那么可能已经收敛。
梯度变得非常小(接近零)时,可能表明模型已经趋于稳定。这是因为梯度下降的目标是找到梯度为零的点,即损失函数的最小值。

逻辑回归
是一种分类算法,用于预测一个事物属于两个可能性之一的概率。在逻辑回归中,输出是一个概率值,
在二元分类问题中,将不同类别的数据样本分隔开的分界线或超平面。决策边界决定了分类模型在给定特征值时如何将数据点分配到不同的类别。

L1L2正则化,就是在损失函数中加入正则项。可以将 L2 的导数的作用理解为每次移除权重的 x%,L2 通常都不会使权重为零。
可以将 L1 的导数的作用理解为每次从权重中减去一个常量。
在这里插入图片描述在这里插入图片描述

精确率和召回率是对抗的.
精确率是指模型正确预测为正类别的样本数量与模型预测为正类别的样本总数之比。换句话说,它衡量了模型在正类别预测中的准确性。召回率是指模型正确预测为正类别的样本数量与实际正类别的样本总数之比。在分类决策中存在一个权衡,调整模型的决策阈值(即何时将一个样本分类为正类别)可以影响精确率和召回率之间的权衡关系。如果将决策阈值设置得更高,可以提高精确率但降低召回率,反之亦然。

决策树,跟平衡二叉树差不多。
决策森林,有许多决策树,每个决策树训练数据来自于随机采样,因此每颗决策树都是不同的。最终结果由所有决策树投票得出。

SVM支持向量机,目标是找到一个能够实现最大间隔分类的超平面(对于二维数据是一条直线,对于高维数据是一个超平面)。最大间隔是指离超平面最近的数据点的距离最远。 支持向量是离超平面最近的数据点,它们对于定义超平面起到关键作用。它们决定了最大间隔的大小和方向。超平面成为决策边界,它将特征空间分为两个区域,


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值