机器学习
文章平均质量分 56
✅围绕具体实践,包含机器学习的传统经典方法,以及与非机器学习但常常结合使用的各项技术,确保难度适中
❌不包含大模型、神经网络等模型复杂度较高的技术(见深度学习)
注:并没有区别于机器学习的深度学习,这里只是根据模型复杂度方便分栏
优惠券已抵扣
余额抵扣
还需支付
¥15.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
坠金
记性很差,写博客一是记录,二是交流分享,欢迎批评
展开
-
异常点检测
【代码】异常点检测。原创 2024-11-06 15:43:51 · 15 阅读 · 0 评论 -
使用Pytorch Geometric建立异构图HeteroData数据集
点和边对应的值(如[1,3] 或 torch.randn(1,2))会各自存在stores和edges_stores下,一般存储的类型是tensor,这里为了方便对比学习,在这用了一个数组。类似字典,.point会使得data内部的keys增一个'point',key叫什么可以自己定义。data['user']会使得data内部node_types增加'user'原创 2024-11-06 15:42:17 · 187 阅读 · 0 评论 -
半监督基本概念
平滑假设(smoothness assumption):如果两个样本在输入空间中相似,其标签也应该相似;聚类假设(low-density assumption):当两个样例位于同一聚类簇时,很大的概率下有相同的类标签。聚类假设也可以被视为低密度分离假设,即:给定的决策边界位于低密度地区。流形假设(manifold assumption):同一个低维流形(manifold)上的样本应该包含相同的标签;原创 2024-11-06 15:41:32 · 22 阅读 · 0 评论 -
lstm-ae代码实现
【代码】lstm-ae代码实现。原创 2024-11-06 15:27:05 · 7 阅读 · 0 评论 -
集成学习-森林-代码实现
【代码】集成学习-森林-代码实现。原创 2024-11-06 15:24:30 · 8 阅读 · 0 评论 -
编码器-解码器autoencoder
【代码】编码器-解码器autoencoder。原创 2024-11-04 09:58:35 · 187 阅读 · 0 评论 -
数据集集合划分
验证集在训练过程中还可以用来监控模型是否发生过拟合,一般来说验证集表现稳定后,若继续训练,训练集表现还会继续上升,但是验证集会出现不升反降的情况,这样一般就发生了过拟合。所以验证集也用来判断何时停止训练。在训练集上训练模型,在验证集上评估模型,一旦找到的最佳的参数,就在测试集上最后测试一次,测试集上的误差作为泛化误差的近似。作用:考察训练好的模型实际性能如何。作用:检验模型的状态,收敛情况。建议划分比例为721。原创 2024-10-30 17:03:45 · 146 阅读 · 0 评论 -
【前端】使用gradio搭建网页展示demo(python语言)
【代码】使用gradio搭建网页展示demo(python语言)原创 2024-10-31 14:18:27 · 65 阅读 · 0 评论 -
AE(autoencoder)
解码器再次通过其多个层,试图扩展编码表示并重建原始数据的结构。最后的输出层通常会有一个激活函数,如sigmoid,确保输出数据与原始数据在同一个范围内。: 输入数据首先通过编码器的多个层(可能是全连接层或卷积层),每一层都可能有其自己的激活函数(例如ReLU或Sigmoid)。这个过程最终会生成一个编码表示,它比原始输入数据有更少的维度。自编码器的目标是最小化重建误差,即使原始输入和重建的输出尽可能接近。其中, xi 是原始数据, x^i 是重建的数据, N是数据点的数量。原创 2023-10-08 16:09:54 · 1 阅读 · 0 评论 -
激活函数/激活层
输出层使用softmax,假如有3类,那么softmax的输出是各类别的概率( 如[0.1,0.2,0.7] ),输出的总和相加为1。比如在目标检测中,将iou大于阈值的认为有物体,小于阈值认为没有。输出层使用sigmoid,作用是将数据归一化到0,1。原创 2024-10-30 17:13:53 · 260 阅读 · 0 评论 -
逻辑回归logistics regression
我们将这些参数和第一个样本的特征值代入模型,可以得到 p=0.5,与真实标签 y=0 的差距较大,因此我们需要调整参数。但是,逻辑回归也有其局限性,例如它假设特征和标签之间是线性关系,无法处理复杂的非线性关系。它的工作原理基于逻辑函数(或称为 sigmoid 函数),该函数的输出在0到1之间,可以解释为概率。,其中 w1 和 w2 是权重,b 是偏置项,这些都是模型需要学习的参数。假设我们有一个二分类问题,每个样本有两个特征 (x1, x2),标签为 y,我们希望基于这些特征来预测 y。原创 2024-10-31 14:21:40 · 358 阅读 · 0 评论 -
术语中英对照
训练 测试 验证:如何正确使用机器学习中的训练集、验证集和测试集? - 简书 (jianshu.com)在训练集上训练模型,在验证集上评估模型,一旦找到的最佳的参数,就在测试集上最后测试一次,测试集上的误差作为泛化误差的近似。训练集作用:估计模型学习样本数据集,通过匹配一些参数来建立一个分类器。建立一种分类的方式,主要是用来训练模型的。验证集作用:确定网络结构或者控制模型复杂程度的参数对学习出来的模型,调整分类器的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控原创 2024-10-30 17:04:45 · 231 阅读 · 0 评论 -
AUC(Area Under Curve)
AUC有两种,ROC-AUC, PR-AUCROC由TPR, FPR画出PR由P和R画出注意 TPR==R。原创 2023-09-20 21:06:48 · 240 阅读 · 0 评论 -
lof 局部离群因子-异常检测-原理及代码复现
LOF 值是通过比较一个点的局部可达密度与其邻居的局部可达密度来计算的。LOF 值越高,表示该点相对于其邻居的密度越低,越有可能是离群点。:计算每个点与其邻域中其他点的可达距离。可达距离是指从一个点到其邻居的距离,通常是考虑到邻域内的密度的影响。:对于每个数据点,首先确定其 k 个最近邻(k-nearest neighbors)。LOF 算法通过比较数据点与其邻近点的密度来判断一个点是否为离群点。:对每个点计算其局部可达密度,表示在其邻域内的点的密度。原创 2024-11-04 10:26:09 · 99 阅读 · 0 评论 -
集成学习-树模型
偏差(Bias)描述的是预测值和真实值之差;方差(Variance)描述的是预测值作为随机变量的离散程度。原创 2023-09-11 09:22:17 · 365 阅读 · 0 评论 -
欠拟合&过拟合
第一类是不完全监督(incomplete supervision),即,只有训练集的一个(通常很小的)子集是有标签的,其他数据则没有标签。第二类是不确切监督(inexact supervision),即只有粗粒度的标签。尽管当前的技术已经取得了巨大的成功,但是值得注意的是,由于数据标注过程的高成本,很多任务很难获得如全部真值标签这样的强监督信息。的标签是不可靠的,如(x,y),y对于x的标记是不可靠的。范数:数学上最大的作用是比较大小(实数时1原创 2024-10-30 16:55:52 · 280 阅读 · 0 评论 -
【聚类/回归】KNN和k-means的区别
knn是分类算法,首先给定已经分好类别的数据,问测试数据属于哪一类。分类依据是投票法,看测试数据周边最多的是哪一类,则测试数据属于该类kmeans是聚类算法,给定数据无任何标签,算法猜测有几类,簇在哪,其过程类似熵增。原创 2023-04-16 14:12:45 · 85 阅读 · 0 评论 -
【聚类/回归】bagging与boosting
这些弱学习器是独立的,由于每个弱学习器对应的训练集是不同的,因此每个弱学习器都具有不同的误差和方差。因此,Bagging算法可以降低整体模型的方差,提高模型的泛化能力。在机器学习中,模型的方差(variance)指的是模型的预测结果对于训练数据的变化敏感程度,即模型在不同的训练数据集上产生的预测结果的差异大小。Boosting算法通过迭代训练弱学习器,每次都会调整训练数据的权重,并让弱学习器关注上一轮训练中分类错误的样本,从而降低整体模型的偏差,提高模型的准确性。原创 2023-03-22 14:34:27 · 248 阅读 · 1 评论 -
【聚类/回归】回归-原理及评价标准的实现
回归模型存在一个点集,试图用一条曲线去拟合它的分布。如果拟合曲线是一条直线,则称为线性回归。如果是一条二次曲线,则被称为二次回归。线性回归是回归模型中最简单的一种。若数据只有一个特征,数据集分布在一条直线上,那么回归模型可以表示为:y = w * x + b。2个特征,y = w1 * x1 +w2*x2+b....用矩阵表示:w称为权重,b称为偏置评价标准如何求解参数w b能够量化目标的实际值与预测值之间的差距,在训练模型时,我们希望寻找一组参数(w,b).原创 2022-05-18 19:13:50 · 361 阅读 · 0 评论 -
【聚类/回归】聚类-入门
参考:《机器学习》周志华聚类和分类的区别:分类:训练时会给标签,通过监督学习,使模型能够预测新数据属于什么类别聚类:训练时没有标签,通过无监督学习,试图把数据分成几个不相交的子集聚类的种类:根据方法分为:原型聚类 / 密度聚类 / 层次聚类根据同一个样本是否可以属于不同簇分为:软聚类 / 硬聚类聚类的性能度量:注意,现实中聚类的分类效果是主观的,大体上希望,离得近(相似度高)的在同一堆(簇)里边外部指标:将我们的结果和“参考模型”结果比较参考模型:原创 2022-05-05 17:32:26 · 405 阅读 · 1 评论 -
【聚类/回归】KNN实现(数据集cifar10)
下载数据集CIFAR-10 and CIFAR-100 datasets的python版本并解压到C:\Users\mage\.keras\datasets读取数据:cifar10数据读取_坠金的博客-CSDN博客将读入的数据可视化import numpy as npimport matplotlib.pyplot as pltcifar10_dir = 'C:/Users/mage/.keras/datasets/cifar-10-batches-py/'import cifa原创 2022-06-11 00:00:00 · 580 阅读 · 0 评论 -
【聚类/回归】HOG特征提取
目录预备知识梯度的计算方式预处理计算流程在cell中计算梯度方向直方图(Orientation binning)在block中归一化梯度方向直方图(Block Normalization)统计整幅图像(检测窗口)的HOG特征实现预备知识梯度的计算方式求取梯度幅值和方向:取图像水平方向和垂直方向的梯度,然后计算每个像素点的梯度幅值和方向,微分求图像梯度不仅可以捕获图像边缘和纹理信息,而且可以弱化光照不均匀的影响HOG特征提取目的:一幅图片包含的特..原创 2022-05-30 16:51:31 · 167 阅读 · 0 评论 -
【聚类/回归】k最近邻KNN
前面学的kmeans中我们知道,一个实例属于哪一个簇,取决于它距离哪一个簇更近。在kmeans中,一个样本属于哪一类,取决于它的邻居中出现的最多类别,即“投票法”k=3 红星=黄色k=6 =紫色实现手写数字识别cifar10 图像识别这个数据是图像,根据上面的原理介绍很容易理解KNN怎么完成聚类的,那么又是怎么对图像分类的呢?有两种方法:(1)直接分类本质是将图像的每个像素点的像素值作为特征图像间的距离=每个对应位置的像素点的像素值差值的绝对值的和。原创 2022-05-29 22:45:26 · 448 阅读 · 1 评论 -
【聚类/回归】多层感知机MLP求解回归问题
模型定义:损失函数:torch.nn里的损失函数:MSE、BCE、BCEWithLogits、NLLLoss、CrossEntropyLoss的用法_zcm0126的博客-CSDN博客_mse和bcebatch:原创 2022-05-23 00:00:00 · 573 阅读 · 0 评论 -
【聚类/回归】岭回归的原理和实现
预备知识共线性:特征之间线性相关e.设原线性回归公式为:y=w1*x1+w2*x2+w3*x3训练完毕的线性回归公式为:y=5x1+7x2+10x3,此时加入一个新特征x4,假设x4和x3高度相关,x4=2x3,则y=w1*x1+w2*x2+w3*x3+w4*x4=w1*x1+w2*x2+(w3+2w4)*x3因为我们之前拟合出来的最优的回归方程为:y=5x1+7x2+10x3显然w3+2w4可以合并成一个新的权重稀疏 w5,则y=w1*x1+w2*x2.原创 2022-05-18 19:58:18 · 604 阅读 · 0 评论 -
【聚类/回归】线性回归的原理及python实现
经典的线性回归模型主要用来预测一些存在着线性关系的数据集。回归模型可以理解为:存在一个点集,用一条曲线去拟合它分布的过程。如果拟合曲线是一条直线,则称为线性回归。如果是一条二次曲线,则被称为二次回归。线性回归是回归模型中最简单的一种。 本教程使用PaddlePaddle建立起一个鲍鱼年龄预测模型。在线性回归中:(1)假设函数是指,用数学的方法描述自变量和因变量之间的关系,它们之间可以是一个线性函数或非线性函数。 在本次线性回顾模型中,我们的假设函数为 Y’= wX+b ,其中,Y’表示模型的预测..原创 2022-05-18 10:51:20 · 355 阅读 · 0 评论 -
【聚类/回归】mean-shift算法原理
预备知识核函数样本线性可分时,我们很容易找到一个函数将它分开。比如对于样本(1,0)和(0,1)可以用y=x分开样本点不是线性可分时,比如:我们就要用“核函数”将二维线性不可分样本映射到高维空间中,让样本点在高维空间线性可分核函数的选择支持向量机的核函数及其选择 - JavaShuo注意 常用的高斯核函数,对参数较为敏感原理在Mean Shift算法中引入核函数的目的是使得随着样本与被偏移点的距离的不同,其偏移量对均值偏移向量的...原创 2022-05-10 15:08:24 · 315 阅读 · 1 评论 -
【聚类/回归】高斯混合聚类EM-GMM的原理和python实现
首先介绍作为模型的GMM原理,EM算法原理(用来迭代求解模型参数的)见另一篇博客原理先验概率:事情还没有发生,根据以往经验(已知数据分布)来判断事情发生的概率扔一个硬币,在扔之前就知道正面向上的概率为0.5 后验概率事情已经发生了,判断事情的发生是由哪一种原因引起的 P( 你在东南大学 | 同学都是男的),意为,已经发现身边同学都是男的,原因是你属于东大学生这个簇的可能性是将后验概率用于聚类假设一开始我们猜测有3个簇,那么对每个样本可以计算得到3个后验概率..原创 2022-05-09 20:34:23 · 1388 阅读 · 1 评论 -
【聚类/回归】k-means 原理和python实现
随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心算法过程:(1)随机选取K个对象作为初始聚类中心;(2)将数据样本集合中的样本按照最小距离原则分配到最邻近聚类;(3)根据聚类的结果,重新计算K个聚类的中心,并作为新的聚类中心;(4)重复步骤2.3直到聚类中心不再变化。这个距离可以直接是 ((x-x0)^2+(y-y0)^2)^0.5这种k近邻:分类和回归 监督学习参考资料机器学习中 K近邻法(knn)...原创 2022-05-06 20:12:45 · 391 阅读 · 1 评论 -
【聚类/回归】聚类原理 及 实现
然后我比较懒,有的地方没提到的麻烦评论我再更新吧。原创 2022-05-06 20:17:11 · 155 阅读 · 0 评论