自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(376)
  • 收藏
  • 关注

原创 windows下 gcc 下载及使用指南

问题起因博主在用 microsfot visual studio 编写C++ 程序好好的,但是该编译器 报错信息不像人话,如下图所示,对于初学者而言很难理解其报错原因:软件图标报错信息故下定决心,安装 gcc ,鉴于网络上此教程不全面,安装报链接失效,故些此文。安装步骤首先安装包 下载...

2021-08-13 15:37:02 29777 14

原创 【对比学习串烧】 SimSiam & MoCov3 & DINO

论文报告了令人惊讶的实验结果,即使不使用负样本对、大批量或动量编码器,简单的孪生网络也能学习到有意义的表示。SimSiam方法在ImageNet和下游任务上取得了有竞争力的结果。重点内容:论文展示了即使不使用负样本对,孪生网络也能有效地学习,这挑战了对比学习中负样本对的必要性。SimSiam在标准批量大小下也能工作,这与需要大批量训练的模型(如SimCLR)不同。论文发现,与BYOL等模型不同,SimSiam不需要动量编码器来防止输出塌陷。

2024-09-22 19:41:13 936

原创 【对比学习串烧】 SWav和 BYOL

摘要:论文提出了一种名为SwAV的在线算法,该算法利用对比学习方法的优势,而无需计算成对比较。通过聚类分配的一致性,SwAV能够在不同图像增强之间进行对比,同时不需要大型记忆库或特殊动量网络。此外,论文还提出了一种新的多分辨率裁剪(Multi-crop)策略数据增强策略,该策略通过使用不同大小的图像视图,提高了模型的性能。重点在线聚类损失:提出了一种可扩展的在线聚类损失,通过+2%的性能提升,在大型和小批量设置中均有效,无需大型记忆库或动量编码器。多分辨率裁剪(Multi-crop)策略策略。

2024-09-21 19:48:29 686

原创 【论文串烧】多媒体推荐中的模态平衡学习 | 音视频语音识别中丢失导致的模态偏差对丢失视频帧鲁棒性的影响

论文的摘要指出,多模态内容的推荐系统需要有效地整合来自不同模态的信息。然而,不同模态之间的信息不平衡导致了弱模态的性能优化不足。为了解决这些问题,论文提出了CKD方法,该方法通过模态特定的知识蒸馏和反事实推断技术,解决了模态不平衡问题,并充分利用了所有模态。通过在六个不同的推荐系统模型上进行广泛的实验,证明了CKD方法可以显著提高推荐性能。论文首先通过实验验证了dropout技术引入的模态偏差,发现这种偏差在隐藏的表示子空间中本质上表现为从多模态到单模态分布的转变。

2024-09-19 21:22:31 1109

原创 MoCo和SimCLR【CV双雄】

摘要:MoCo通过构建一个动态字典来实现无监督学习,该字典使用队列和移动平均编码器,从而在训练过程中实现大型且一致的字典构建。MoCo在ImageNet分类的常见线性协议上提供了有竞争力的结果,并且学习到的表征在多个下游任务中表现良好,甚至在某些情况下超过了有监督预训练模型。研究表明,MoCo在许多视觉任务中大大缩小了无监督和有监督表征学习之间的差距,并且可以在多种应用中替代ImageNet有监督预训练。重点:引言:介绍了无监督表示学习在自然语言处理中的成功,以及在计算机视觉中的挑战。

2024-09-17 15:45:13 734

原创 计算机视觉 对比学习 串烧二

对比预测编码(CPC)是一种无监督学习方法,通过使用强大的自回归模型在潜在空间预测未来,从而学习数据的表征。CPC使用概率对比损失函数,诱导潜在空间捕获对于预测未来样本最有用的信息。该方法通过负采样使模型可处理,并在语音、图像、文本和3D环境中的强化学习四个不同领域上展示了其强大的性能。重点:引言:介绍了有监督学习在多个应用中取得的成功,以及无监督学习面临的挑战和重要性。相关工作:讨论了无监督学习中预测未来、缺失或上下文信息的常见策略。CPC方法动机和直觉。

2024-09-16 14:47:13 1113

原创 计算机视觉 对比学习 串烧一

摘要:研究了在没有类别标签的情况下,如何学习能够捕捉实例之间视觉相似性的特征表示。提出了一种非参数分类问题的方法,使用噪声对比估计(Noise-contrastive Estimation, NCE)来解决大量实例类别带来的计算挑战。实验结果显示,该方法在ImageNet分类任务上达到了新的无监督学习状态,通过微调学习到的特征,还可以在半监督学习和目标检测任务上获得有竞争力的结果。该方法的非参数模型非常紧凑,每个图像128个特征,对于一百万图像只需要600MB的存储空间,实现了快速的最近邻检索。

2024-09-15 22:23:22 1257

原创 【最新解决方案】 Unknown encoder ‘libx264‘

在编译make时候可以泡十杯Java咖啡等待~我方案一失效了,(也是网上常见给出的方法),(3)ffmpeg 重新编译安装。若相同者可以直接跳到最下面方案。(1) 安装NASM。

2024-09-13 10:30:13 516

原创 【论文精读】 | 用于时间序列预测的通道对齐坚固的混合Transformer

最近的研究表明,Transformer 模型在时间序列预测方面具有强大的功能。导致 transformer 成功的关键因素之一是用于提高训练鲁棒性的通道无关 (CI) 策略。然而,对 CI 中不同渠道之间相关性的无知会限制模型的预测能力。在这项工作中,我们设计了一个特殊的 Transformer,即 Channel Aligned Robust Blend Transformer(简称 CARD),它解决了 CI 型 Transformer 在时间序列预测中的关键缺点。首先,CARD 引入了一种。

2024-09-08 22:00:38 917

原创 机器学习数学公式推导之降维

机器学习数学公式推导

2024-09-03 22:12:12 1219

原创 机器学习数学公式推导之线性分类

文章目录线性分类1、两分类-硬分类-感知机算法2、两分类-硬分类-线性判别分析 LDA2.1 协方差的定义2.2 协方差的含义与性质2.3 注意事项2.4 交叉熵的定义2.5 交叉熵与信息熵、KL散度的关系2.6 交叉熵在机器学习中的应用3、两分类-软分类-概率判别模型-Logistic 回归4、两分类-软分类-概率生成模型-高斯判别分析 GDA5、两分类-软分类-概率生成模型-朴素贝叶斯6、小结P13 (系列四)线性分类1 - 背景线性分类对于分类任务,线性回归模型就无能为力了,但是我们可

2024-09-02 23:00:45 1451

原创 机器学习数学公式推导之线性回归

文章目录线性回归一、最小二乘法1.1 范数的概念1.2 最小二乘法的推导1.3 几何意义二、噪声为高斯分布的 MLE2.1 LSE(最小二乘估计)2.2 MLE(极大似然估计)2.3 LSE与MLE的联系与区别三、权重先验也为高斯分布的 MAP四、正则化4.1 L1 Lasso4.2 L2 Ridge4.3 MAP(极大后验估计)LSE(最小二乘估计)五、小结本文参考 B站UP: shuhuai008 🌹🌹P9 系列三 线性回归1-最小二乘法及其几何意义线性回归假设数据集为:D={(x1,

2024-09-01 20:22:05 1543

原创 机器学习数学公式推导之高斯分布

文章目录1、介绍引入1.1 频率派的观点1.2 贝叶斯派的观点1.3 小结2、数学基础2.1 二阶中心矩2.2 样本方差2.3 高斯分布2.3.1 一维情况 MLE2.3.2 多维情况1、介绍引入在统计学和概率论中,P(x∣k)P(x|k)P(x∣k) 通常表示在给定条件 kkk 下,事件 xxx 发生的条件概率。条件概率是描述两个或多个事件之间关系的概率,其中一个事件的发生依赖于另一个事件的发生。具体来说,P(x∣k)P(x|k)P(x∣k) 的定义是:在事件 kkk 已经发生的条件下,事件

2024-08-31 22:02:39 1295

原创 深度学习复盘与论文复现G & 项目维护

基本结构:RNN由输入层、隐藏层和输出层组成。

2024-08-28 10:09:49 1026 1

原创 【论文复现】 | 改善抑郁估计从面部对齐,训练优化和调度

我们提出的方法已经在两个公开可用的数据库上进行了评估:视听/视觉情绪挑战 AVEC2013 和 AVEC2014抑郁子挑战数据集。抑郁水平介于 0 到 63 之间。根据 BD-II 评分,抑郁症的严重程度可分为四个级别:轻度 (0-13)、轻度 (14-19)、中度 (20-28) 和重度 (29-63)每个任务都分为三个部分:训练、开发和测试,所有部分都有 50 个视频。逻辑回归主要用于二分类问题,它基于线性回归,通过逻辑函数(如Sigmoid函数)将线性回归的输出映射到0和1之间,从而表示概率。

2024-08-18 22:31:43 923

原创 学术周交流与学习节选

定义:图像恢复技术是指通过计算机算法和模型,对质量受损的图像进行处理,以重建或恢复其原始质量的过程。目的:恢复图像的真实性、清晰度和准确性,减少或消除成像过程中的各种干扰因素。

2024-08-11 22:06:16 817

原创 深度学习复盘与论文复现F

解码器同样包含多个层,但每一层除了自注意力层和前馈全连接层外,还增加了一个编码器-解码器注意力层(Encoder-Decoder Attention Layer),用于将解码器当前位置的输入与编码器的所有位置进行交互,以获得与目标序列有关的信息。左侧的搜索方式为贪心搜索,每次找到当前条件概率最大的选项进行预测,但是这样可能会导致之后的条件概率较小,从而导致最终的联合概率较小,生成的序列不优。我们的目标是找到一个最有序列,他的联合概率,也就是每步之间的条件概率的乘积,最大。

2024-08-04 22:09:10 1202 4

原创 【论文精读】 | 基于图表示的视频抑郁症识别的两阶段时间建模框架

多尺度面部行为的重要性,抑郁特征增强(DFE)模块,以及两种图编码策略:顺序图表示(SEG)和谱图表示(SPG)

2024-07-28 22:11:12 818 3

原创 深度学习复盘与论文复现E

NS模块是一个标准的编码器,包含四个1-D卷积层,分别有1024、512、128和32个内核。MTB模块的最终输出包括三个时序特征图集,每个时序特征图集由1024个特征图组成,大小为1×4×4。最后,将每个特征映射集转换为2048维的一维潜在特征向量,从而形成DFE模块的输入。抑郁症识别模型:采用的GAT模型包含一个GAT层,一个读出层和三个FC层,附加RLU激活函数。:对于AVEC2013和AVEC2014数据集的实验,使用了由三个ResNet-.50网铬组成的MTB模块,这。MTB_DFE运行结果。

2024-07-21 22:02:12 1031 1

原创 深度学习复盘与论文复现D

此外还需要实现__len,该方法用于计算样本数据,__len__返回总的样本的个数。一.

2024-07-14 21:17:10 1501 3

原创 人工智能项目论文复现

监督学习是利用标记数据进行训练,可以用于分类、回归等任务。无监督学习则是利用未标记数据进行训练,可以用于聚类、异常检测等任务(没有对与错,寻找数据的共同特点)。半监督学习则是介于监督学习和无监督学习之间的一种学习方式,利用一小部分已标记数据和大量未标记数据进行训练。强化学习则是利用智能体与环境的交互进行学习,可以用于处理与环境交互的问题。无监督学习 是机器学习的一种重要类型,它专注于从未标记或未分类的数据中发现隐藏的模式和结构。

2024-07-07 22:14:26 1084

原创 DIVE INTO DEEP LEARNING 56-60

一块是编码器,也叫encoder,用于将输入处理为一个中间状态一块是解码器,也叫decoder,用于将中间状态表示为输出解码器也可以有额外的输入提供信息。

2024-06-30 21:41:04 761 1

原创 DIVE INTO DEEP LEARNING 50-55

语义分割在自动驾驶、医学图像处理、卫星图像分析等领域有着广泛的应用。在自动驾驶中,语义分割可以帮助车辆识别道路、行人、车辆等障碍物;在医学图像处理中,语义分割可以帮助医生识别病变区域。

2024-06-23 22:05:13 670

原创 DIVE INTO DEEP LEARNING 36-49

基本概念: 数据增广是指通过对原始数据集进行一系列的变换来增加数据集数量,这些变换可以是几何变换(如旋转、缩放、裁剪等)、颜色变换(如改变亮度、对比度等)或添加噪声等方式。通过数据增广,可以生成新的训练数据,使模型更好地适应各种变化,提高模型的性能。采集数据得到的训练场景与实际部署场景不同是常见的问题,这种变化有时会显著影响模型表现。在训练集中尽可能模拟部署时可能遇到的场景对模型的泛化性十分重要。数据增强是指在一个已有数据集上操作使其有更多的多样性。对语音来说可以加入不同的背景噪音,对图片而言可以改变其颜色

2024-06-16 19:55:40 937 1

原创 深度学习复盘与论文复现C

RNN(Recurrent Neural Network,循环神经网络)是一种具有“记忆”功能的神经网络,它特别适合处理序列数据,如文本、语音、时间序列等。RNN通过在其内部结构中引入循环,使得网络能够捕捉序列中的时间依赖性和动态性。RNN 的公式表示在 RNN 中,隐藏状态 和输出 的计算通常使用以下公式:其中:RNN 的问题尽管 RNN 在处理序列数据方面非常有效,但它也面临一些问题:RNN 的变体为了解决这些问题,研究人员提出了 RNN 的多种变体,其中最著名的是 LSTM(Long Short-

2024-06-09 21:06:34 1089 1

原创 深度学习复盘与论文复现B

GoogLeNet在一个块中将几种卷积核(1×1、3×3、5×5、…)都使用,然后将其结果罗列到一起,将来通过训练自动找到一种最优的组合。(Feature Extraction),最后的 Fully Connected 称为分类(Classification)。Average Pooling 均值池化:保证输入输出宽高一致(可借助padding和stride)总结:一般LSTM 比RNN性能好,但运算性能时间复杂度比较高,所以引出折中的GRU介绍。卷积核通道数=输入通道数,卷积核个数=输出通道数。

2024-06-02 21:52:16 938

原创 深度学习复盘与论文复现A

在Python中,有一些特殊的方法(通常被称为“魔法方法”或“双下划线方法”)是由Python解释器预定义的,它们允许对象进行某些特殊的操作或重载常见的运算符。这些魔法方法通常以双下划线(__)开始和结束。初始化方法在创建对象时自动调用,用于初始化对象的状态。字符串表示方法和用于定义对象的字符串表示。__str__用于在print函数中,而__repr__用于在repr函数中。)"比较方法:如等用于定义对象之间的比较操作。算术运算符方法:如等用于定义对象之间的算术运算。容器方法:如等。

2024-05-26 21:26:57 1230 1

原创 【已解决】在jupyter里运行torch.cuda.is_available(),显示True,在pycharm中运行却显示false。

在jupyter里运行torch.cuda.is_available(),显示True,在pycharm中运行却显示false。原因在于jupyter 运行环境和pycharm 运行环境不同,前者支持gpu,后者配置不到位。

2024-05-26 20:29:04 590 1

原创 【最新解决方案】ImportError: cannot import name ‘builder‘ from ‘google.protobuf.internal‘

问题都与“google”命名空间的命名空间冲突有关。直接更新为最新版本,或者相对应的版本。,(也是网上常见给出的方法),在anaconda 上操作。前面四种方案都失效了。

2024-05-26 11:58:29 2474 3

原创 《动手学深度学习》V2(19-30)

在多层感知机的从零开始实现里构造了一个含单隐藏层的多层感知机模型来对Fashion-MNIST数据集中的图像进行分类。每张图像高和宽均是28像素。我们将图像中的像素逐行展开,得到长度为784的向量,并输入进全连接层中。然而,这种分类方法有一定的局限性。图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像,使用全连接层容易造成模型过大。假设输入是高和宽均为1000像素的彩色照片(含3个通道)。即使全连接层输出个数仍是256,该层权重参数的形状是3。

2024-05-19 21:19:50 926

原创 《动手学深度学习》V2(11-18)

训练误差:模型在训练数据上的误差泛化误差:模型在新数据上的误差验证数据集:一个用来评估模型好坏的数据集测试数据集:只用一次的数据集。K-折交叉验证(K-Fold Cross-Validation)是一种常用的模型验证技术,主要用于评估统计分析或机器学习模型在独立数据集上的性能。其核心思想是将原始数据集分为K个大小相似的子集(或“折”),然后重复K次训练和验证过程。在每次迭代中,选择一个子集作为验证集,其余K-1个子集作为训练集。通过这K次迭代,每个子集都充当过一次验证集,从而可以得到K个评估指标。K-折交叉

2024-05-12 21:05:08 755 1

原创 《动手学深度学习》V2(00-10)

张量表示一个由数值组成的数组,这个数组可能有多个维度。具有一个轴的张量对应数学上的向量(vector);具有两个轴的张量对应数学上的矩阵(matrix);具有两个轴以上的张量没有特殊的数学名称。首先,我们可以使用arange创建一个行向量 x。这个行向量包含以0开始的前12个整数,它们默认创建为整数numel是一个函数,用于计算数组(或矩阵)中的元素总数[要想改变一个张量的形状而不改变元素数量和元素值,可以调用reshape函数。

2024-05-05 21:13:17 1064

原创 吴恩达深度学习 (week7,8)

在深度学习中,常见的超参数种类繁多, 对于模型的训练过程和最终性能有着显著影响。学习率(Learning Rate)定义了模型在训练过程中权重更新的步长。学习率过大可能导致模型在最优解附近震荡而无法收敛,学习率过小则可能导致训练过程过于缓慢。批次大小(Batch Size)决定了每次更新模型权重时所使用的样本数量。较大的批次大小可以加速训练过程,但也可能导致内存不足;较小的批次大小则可能使训练过程更加稳定,但训练速度较慢。迭代次数(Iterations 或 Epochs)表示整个训练集被用于训练的次数。

2024-04-28 18:33:36 919 1

原创 吴恩达深度学习 (week5,6)

深度学习可能存在过拟合问题——高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据在Python编程语言中, λ 是一个保留字段,编写代码时,我们删掉 α ,写成lambd,以免与Python中的保留字段冲突.L1和L2正则化是机器学习中用于避免过拟合的技术,它们通过在损失函数中加入一个正则项来实现。L1正则化,也称为Lasso回归,通过在损失函数中加入权重参数的绝对值之和来限制模型复杂度。这通常会导致一些权重参数变为零,从而实现特征选择的效果。

2024-04-21 19:50:19 871

原创 吴恩达深度学习 (week3,4)

神经网络公式可以把许多sigmoid单元堆叠起来形成一个神经网络在逻辑回归中,通过直接计算 z 得到结果 a。而这个神经网络中,我们反复的计算 z 和 a ,计算 a 和 z ,最后得到了最终的输出`loss function`。在逻辑回归中,有一些从后向前的计算用来计算导数 `da、dz`。

2024-04-13 22:38:36 1070

原创 【论文阅读】《Deep Learning for Depression Recognition with Audiovisual Cues: A Review》 summary

基于多模态的抑郁症识别入门综述

2024-04-07 23:09:50 1080 1

原创 吴恩达深度学习 (week1,2)

(1)第一题神经元计算什么?神经元计算一个线性函数(z=Wx+b),然后接一个激活函数(2)第二题逻辑回归的损失函数?(3)第三题考虑以下两个随机数组a和b:c = a + bc的维度是什么?D.计算不成立因为这两个矩阵维度不匹配解:a和b的形状不同,会触发广播机制,b将元素进行复制到(2, 3),c的形状为(2, 3)(4)第四题考虑以下两个随机数组a和b:c = a * bc的维度是什么?D.计算不成立因为这两个矩阵维度不匹配(√)(5)第五题np.dot(a,b。

2024-04-07 00:09:09 931

原创 域名变迁易踩坑点

域名变迁

2023-01-09 15:35:00 273 1

原创 关于老项目重开 无法启动问题

加油

2022-04-21 14:52:19 612

原创 使用FreePicPdf 提取书签并生成书签

文章目录软件提取书签生成书签书签对应问题软件双击如下软件 FreePicPdf.exe提取书签首先找到右下角更改pdf再者根据序号提取书签选择存放接口文件夹的目录结构如下图所示:生成书签根据序号生成书签书签对应问题不少同学可能存在书签跳转不对应问题:可以编辑对应如下接口文件进行解决其中 ShowAll=1 代表书签第1页BasePage=2 代表pdf第2页...

2022-03-16 21:13:29 1655 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除